为什么东京大学的数据科学课程让青少年欲罢不能

TOKYO, Oct 17 (News On Japan) - 东京大学一门快速发展的数据科学课程吸引了不同背景的参与者，包括中学生和高中生，他们与大学生和在职人士一起学习。

这门课程名为GCI，面向全国在线开放，对学生免费，消除了初学者的障碍，并激发了来自日本各地乃至海外的浓厚兴趣。

在最近的一次结业典礼上，主办方报告共有10,579名报名者和1,490名毕业生，显示出该项目严格的要求，结业率仅为14%。“我以为自己可能会在期末任务中失败，但我还是完成了，”一位几乎没有编程经验的初二学生说。GCI每年举办两次，下一期将在10月中旬开始，其受欢迎程度也在全球扩散，吸引了来自32个国家和430所大学的7,700名申请者参加英文版课程。

为了探究课程吸引力的原因，GCI讲师兼AI初创企业研究员世良将之详细介绍了其教学方法，从基础原理到实际应用。世良目前就职于Twins，这是一家由东京大学AI实验室孵化的公司，他将数据科学应用于实际商业问题。“工作范围非常广泛，”他说。“例如，在一家电信公司，我们可以预测客户是否可能解约，并建议他们调整套餐。我们还会评估当前策略是否有效，并在必要时进行调整。”

课程的教学遵循一套结构化流程：探索和清洗数据、构建模型、评估结果并进行迭代。其中一个代表性任务是“Home Credit违约风险”挑战，学生需要根据表格数据（如收入、家庭规模和贷款类型）预测客户是否会违约。训练数据集约有17万行和51列，而测试集约有6万行和50列，违约标签被隐藏。

课程早期强调探索性数据分析（EDA），教学生识别缺失值、异常值和偏态分布。例如，家庭人数和产品价格的缺失值必须在建模前填补。学生还学习到类别不平衡（92%按时还款，8%违约）如何影响结果，以及为什么像AUC这样的指标优于原始准确率。可视化揭示了有用的模式：收入分布在对数变换后更易解读，而某些特征（如教育水平和贷款类型）与违约率有着强烈的相关性。

在建模前，文本类别必须编码为数字，并填补缺失值。虽然one-hot编码通常更安全，但GCI为了简化演示了标签编码，适用于基于树的模型。一个基于70/30分割训练的随机森林模型AUC约为0.65——“虽然不算出色，但证明了这些特征具有预测力，”世良指出。

学生随后学习如何通过特征工程提高性能，例如创建新的变量，如贷款金额与收入的比率（还款负担）或产品价格与贷款金额的比率（自筹资金比率）。这些变化可以提高AUC分数——有时仅提高0.5个百分点，但这一差距可能对排行榜排名产生重大影响。其他技巧包括将个人贷款金额与组平均值进行比较、尝试不同的编码或填补策略、调整超参数，甚至更换算法。这种“假设—测试—优化”的迭代过程是许多学习者上瘾的原因。

让青少年保持热情的原因，讲师们说，是即时反馈和发现的乐趣。只需几行Python代码，初学者就能建立一个具有竞争力的模型，而一次可视化就能改变他们对数据的理解。“你不需要掌握每一个算法才能开始，”世良说。“重要的是严格的分析、周到的特征设计和不断的迭代。”

GCI的成功反映了更广泛的趋势：数据科学已成为通往人工智能的门户。通过教授预测建模、公平评估和细致的数据准备等核心技能，这门课程使AI更易理解并建立了实际基础。对于企业来说，信息类似：与其追逐流行词汇，不如从分析现有数据、提出正确问题并让证据引导战略开始。

Source: テレ東BIZ