TOKYO, Oct 17 (News On Japan) - Program ilmu data yang berkembang pesat di Universitas Tokyo menarik berbagai peserta yang luas, dengan siswa SMP dan SMA belajar bersama mahasiswa universitas dan para pekerja profesional.
Kursus yang dikenal sebagai GCI ini ditawarkan secara online di seluruh negeri dan gratis untuk pelajar, menghilangkan hambatan bahkan bagi pemula sekalipun dan memicu lonjakan minat dari seluruh Jepang dan luar negeri.
Pada upacara kelulusan baru-baru ini, penyelenggara melaporkan total 10.579 peserta dan 1.490 lulusan, menyoroti sifat ketat dari program ini dengan tingkat kelulusan 14%. “Saya pikir saya mungkin akan gagal pada tugas akhir, tetapi saya berhasil menyelesaikannya,” kata seorang siswa kelas dua SMP yang memiliki sedikit pengalaman pemrograman. GCI diadakan dua kali setahun, dengan sesi berikutnya dimulai pada pertengahan Oktober, dan popularitasnya telah mendunia, menarik 7.700 pelamar dari 32 negara dan 430 universitas untuk versi bahasa Inggris.
Untuk mengeksplorasi mengapa kursus ini begitu menarik, instruktur GCI dan peneliti startup AI Masayuki Sera menjelaskan pendekatannya, dari dasar hingga penerapan praktis. Sera bekerja di Twins, sebuah perusahaan hasil spin-off dari laboratorium AI universitas, dan menerapkan ilmu data pada masalah bisnis nyata. “Pekerjaannya sangat beragam,” katanya. “Untuk perusahaan telekomunikasi, misalnya, kami dapat memprediksi apakah pelanggan kemungkinan akan membatalkan kontrak mereka dan kemudian menyarankan perubahan pada paket mereka. Kami juga menilai apakah strategi saat ini efektif dan menyesuaikannya jika diperlukan.”
Kurikulum program ini mengikuti proses yang terstruktur: mengeksplorasi dan membersihkan data, membangun model, mengevaluasi hasil, dan melakukan iterasi. Salah satu tugas utamanya melibatkan tantangan “Home Credit Default Risk”, di mana siswa memprediksi apakah pelanggan akan gagal membayar pinjaman berdasarkan data tabel seperti pendapatan, jumlah anggota keluarga, dan jenis pinjaman. Dataset pelatihan mencakup sekitar 170.000 baris dan 51 kolom, sementara set pengujian memiliki sekitar 60.000 baris dan 50 kolom, dengan label gagal bayar disembunyikan.
Analisis data eksploratif (EDA) ditekankan sejak awal, mengajarkan siswa untuk mengidentifikasi nilai yang hilang, outlier, dan distribusi yang tidak merata. Dalam satu contoh, entri yang hilang dalam ukuran rumah tangga dan harga produk harus diisi sebelum pemodelan. Siswa juga belajar bagaimana ketidakseimbangan kelas — 92% membayar pinjaman mereka sementara 8% gagal bayar — dapat mendistorsi hasil dan mengapa metrik seperti AUC lebih baik daripada akurasi mentah. Visualisasi mengungkap pola yang berguna: distribusi pendapatan menjadi lebih mudah dipahami setelah transformasi log, dan fitur tertentu, seperti tingkat pendidikan dan jenis pinjaman, sangat berkorelasi dengan tingkat gagal bayar.
Sebelum pemodelan, kategori teks harus dikodekan sebagai angka dan nilai yang hilang diisi. Meskipun one-hot encoding umumnya lebih aman, GCI mendemonstrasikan label encoding untuk kesederhanaan dengan model berbasis pohon. Model random forest dasar yang dilatih dengan pembagian 70/30 mencapai AUC sekitar 0,65 — “tidak luar biasa tetapi bukti bahwa fitur memiliki kekuatan prediktif,” catat Sera.
Siswa kemudian belajar cara meningkatkan kinerja melalui rekayasa fitur, seperti membuat variabel baru seperti rasio jumlah pinjaman terhadap pendapatan (beban pembayaran) atau harga produk terhadap jumlah pinjaman (rasio pembiayaan mandiri). Perubahan ini dapat mendorong skor AUC naik — terkadang hanya sebesar 0,5 poin persentase, perbedaan yang dapat berdampak signifikan pada peringkat. Teknik lain termasuk membandingkan jumlah pinjaman individu dengan rata-rata kelompok, mencoba strategi pengkodean atau imputasi yang berbeda, menyetel hyperparameter, atau bahkan mengganti algoritma. Siklus iteratif ini — mengajukan hipotesis, menguji, dan menyempurnakan — adalah tempat banyak peserta menjadi “ketagihan.”
Yang membuat bahkan remaja tetap tertarik, kata para instruktur, adalah umpan balik langsung dan rasa penemuan. Hanya dengan beberapa baris Python, pemula dapat membangun model yang kompetitif, dan satu visualisasi dapat mengubah pemahaman mereka tentang data. “Kamu tidak perlu menguasai setiap algoritma untuk memulai,” kata Sera. “Yang penting adalah analisis yang ketat, desain fitur yang matang, dan iterasi yang terus-menerus.”
Keberhasilan GCI mencerminkan tren yang lebih luas: ilmu data telah menjadi pintu gerbang ke kecerdasan buatan. Dengan membekali peserta dengan keterampilan inti — pemodelan prediktif, evaluasi yang adil, dan persiapan data yang cermat — kursus ini membantu memahami AI dan membangun fondasi praktis. Bagi perusahaan, pesannya serupa: daripada mengejar kata kunci, mulailah dengan memeriksa data yang ada, mengajukan pertanyaan yang tepat, dan membiarkan bukti memandu strategi.
Source: テレ東BIZ


















