TOKYO, Oct 17 (News On Japan) - 东京大学一门快速发展的数据科学课程吸引了不同背景的参与者,包括中学生和高中生,他们与大学生和在职人士一起学习。
这门课程名为GCI,面向全国在线开放,对学生免费,消除了初学者的障碍,并激发了来自日本各地乃至海外的浓厚兴趣。
在最近的一次结业典礼上,主办方报告共有10,579名报名者和1,490名毕业生,显示出该项目严格的要求,结业率仅为14%。“我以为自己可能会在期末任务中失败,但我还是完成了,”一位几乎没有编程经验的初二学生说。GCI每年举办两次,下一期将在10月中旬开始,其受欢迎程度也在全球扩散,吸引了来自32个国家和430所大学的7,700名申请者参加英文版课程。
为了探究课程吸引力的原因,GCI讲师兼AI初创企业研究员世良将之详细介绍了其教学方法,从基础原理到实际应用。世良目前就职于Twins,这是一家由东京大学AI实验室孵化的公司,他将数据科学应用于实际商业问题。“工作范围非常广泛,”他说。“例如,在一家电信公司,我们可以预测客户是否可能解约,并建议他们调整套餐。我们还会评估当前策略是否有效,并在必要时进行调整。”
课程的教学遵循一套结构化流程:探索和清洗数据、构建模型、评估结果并进行迭代。其中一个代表性任务是“Home Credit违约风险”挑战,学生需要根据表格数据(如收入、家庭规模和贷款类型)预测客户是否会违约。训练数据集约有17万行和51列,而测试集约有6万行和50列,违约标签被隐藏。
课程早期强调探索性数据分析(EDA),教学生识别缺失值、异常值和偏态分布。例如,家庭人数和产品价格的缺失值必须在建模前填补。学生还学习到类别不平衡(92%按时还款,8%违约)如何影响结果,以及为什么像AUC这样的指标优于原始准确率。可视化揭示了有用的模式:收入分布在对数变换后更易解读,而某些特征(如教育水平和贷款类型)与违约率有着强烈的相关性。
在建模前,文本类别必须编码为数字,并填补缺失值。虽然one-hot编码通常更安全,但GCI为了简化演示了标签编码,适用于基于树的模型。一个基于70/30分割训练的随机森林模型AUC约为0.65——“虽然不算出色,但证明了这些特征具有预测力,”世良指出。
学生随后学习如何通过特征工程提高性能,例如创建新的变量,如贷款金额与收入的比率(还款负担)或产品价格与贷款金额的比率(自筹资金比率)。这些变化可以提高AUC分数——有时仅提高0.5个百分点,但这一差距可能对排行榜排名产生重大影响。其他技巧包括将个人贷款金额与组平均值进行比较、尝试不同的编码或填补策略、调整超参数,甚至更换算法。这种“假设—测试—优化”的迭代过程是许多学习者上瘾的原因。
让青少年保持热情的原因,讲师们说,是即时反馈和发现的乐趣。只需几行Python代码,初学者就能建立一个具有竞争力的模型,而一次可视化就能改变他们对数据的理解。“你不需要掌握每一个算法才能开始,”世良说。“重要的是严格的分析、周到的特征设计和不断的迭代。”
GCI的成功反映了更广泛的趋势:数据科学已成为通往人工智能的门户。通过教授预测建模、公平评估和细致的数据准备等核心技能,这门课程使AI更易理解并建立了实际基础。对于企业来说,信息类似:与其追逐流行词汇,不如从分析现有数据、提出正确问题并让证据引导战略开始。
Source: テレ東BIZ


















