News On Japan

لماذا تجعل دورة علوم البيانات في جامعة طوكيو المراهقين مهووسين

TOKYO, Oct 17 (News On Japan) - برنامج علوم البيانات سريع النمو في جامعة طوكيو يجذب مجموعة واسعة من المشاركين، حيث يدرس طلاب المدارس الإعدادية والثانوية جنبًا إلى جنب مع طلاب الجامعات والعاملين.

تُقدَّم الدورة، المعروفة باسم GCI، عبر الإنترنت في جميع أنحاء البلاد ومجانية للطلاب، مما يزيل الحواجز حتى أمام المبتدئين ويُشعل موجة اهتمام من جميع أنحاء اليابان وخارجها.

في حفل التخرج الأخير، أعلن المنظمون أن عدد المسجلين بلغ 10,579 طالبًا، بينما بلغ عدد الخريجين 1,490، مما يبرز الطابع الصارم للبرنامج بمعدل تخرج بلغ 14٪. وقال أحد طلاب الصف الثاني الإعدادي، الذي لديه خبرة بسيطة في البرمجة: "كنت أظن أنني سأفشل في المشروع النهائي، لكنني تمكنت من إنهائه". تُعقد GCI مرتين في السنة، وتبدأ الدورة القادمة في منتصف أكتوبر، وقد أصبحت الدورة عالمية، حيث اجتذبت 7,700 متقدم من 32 دولة و430 جامعة للإصدار باللغة الإنجليزية.

لاستكشاف سبب جاذبية الدورة، قدَّم المدرّس في GCI وباحث شركات الذكاء الاصطناعي ماسايوكي سيرا شرحًا لمنهجها، من الأساسيات إلى التطبيقات العملية. يعمل سيرا في شركة "توينز"، وهي شركة منبثقة عن مختبر الذكاء الاصطناعي بالجامعة، ويطبّق علوم البيانات على مشكلات الأعمال الحقيقية. وقال: "العمل واسع النطاق. فمثلًا، في شركة اتصالات، قد نتنبأ بما إذا كان العملاء سيقومون بإلغاء عقودهم ثم نقترح تعديلات على خططهم. كما نقيم مدى فعالية الاستراتيجيات الحالية ونقوم بتعديلها إذا لزم الأمر."

يتبع منهج البرنامج عملية منظمة: استكشاف البيانات وتنقيتها، بناء النماذج، تقييم النتائج، والتكرار. ويتضمن أحد المشاريع الرئيسية تحدي "مخاطر التخلف عن سداد القروض"، حيث يتعين على الطلاب التنبؤ بما إذا كان العملاء سيتخلفون عن السداد بناءً على بيانات مثل الدخل، حجم الأسرة، ونوع القرض. يتضمن مجموعة التدريب حوالي 170,000 صف و51 عمودًا، بينما تحتوي مجموعة الاختبار على حوالي 60,000 صف و50 عمودًا، مع إخفاء علامات التخلف عن السداد.

يُعطى تحليل البيانات الاستكشافي (EDA) أهمية منذ البداية، حيث يتعلم الطلاب تحديد القيم المفقودة والقيم الشاذة والتوزيعات غير المتكافئة. على سبيل المثال، كان لا بد من ملء البيانات المفقودة المتعلقة بحجم الأسرة وسعر المنتج قبل بناء النماذج. كما يتعلم الطلاب كيف يمكن لاختلال التوازن بين الفئات — حيث يسدد 92٪ قروضهم بينما يتخلف 8٪ — أن يشوه النتائج ولماذا تعتبر المقاييس مثل AUC أفضل من الدقة الخام. تكشف التصورات البصرية عن أنماط مفيدة: تصبح توزيعات الدخل أكثر قابلية للفهم بعد تحويل اللوغاريتم، وترتبط بعض الخصائص، مثل المستوى التعليمي ونوع القرض، بقوة بمعدلات التخلف عن السداد.

قبل بناء النماذج، يجب تحويل الفئات النصية إلى أرقام وملء القيم المفقودة. وعلى الرغم من أن الترميز "one-hot" أكثر أمانًا عادةً، فإن GCI توضح الترميز بالملصقات من أجل البساطة في النماذج القائمة على الأشجار. يحقق نموذج الغابة العشوائية الأساسي المدرب بنسبة 70/30 قيمة AUC تبلغ حوالي 0.65 — "ليست ممتازة ولكنها دليل على أن الميزات تحتوي على قوة تنبؤية"، بحسب سيرا.

ثم يتعلم الطلاب كيفية تحسين الأداء من خلال هندسة الميزات، مثل إنشاء متغيرات جديدة كنسبة مبلغ القرض إلى الدخل (عبء السداد) أو سعر المنتج إلى مبلغ القرض (نسبة التمويل الذاتي). يمكن أن تؤدي هذه التغييرات إلى رفع درجات AUC — وأحيانًا بنسبة 0.5 نقطة مئوية فقط، وهو فارق قد يؤثر بشكل كبير على ترتيب المتسابقين. تشمل التقنيات الأخرى مقارنة مبالغ القروض الفردية بمتوسط المجموعة، وتجربة استراتيجيات ترميز أو إكمال مختلفة، وضبط المعاملات الفائقة، أو حتى تغيير الخوارزميات. هذه الدورة التكرارية — الافتراض، والاختبار، والتحسين — هي ما يجعل العديد من المتعلمين "مدمنين" عليها.

ويقول المدرسون إن ما يجعل المراهقين مستمرين في التعلم هو التغذية الراجعة الفورية والإحساس بالاكتشاف. فبمجرد بضعة أسطر من لغة Python، يمكن للمبتدئين بناء نموذج تنافسي، ويمكن أن تغير تصور واحد فقط فهمهم للبيانات. وقال سيرا: "لا تحتاج إلى إتقان كل خوارزمية لتبدأ. المهم هو التحليل الدقيق، وتصميم الميزات بعناية، والتكرار المستمر."

يعكس نجاح GCI اتجاهًا أوسع: فقد أصبحت علوم البيانات بوابة إلى الذكاء الاصطناعي. ومن خلال ترسيخ المتعلمين في المهارات الأساسية — النمذجة التنبؤية، والتقييم العادل، والإعداد الدقيق للبيانات — تُبسط الدورة مفاهيم الذكاء الاصطناعي وتوفر أساسًا عمليًا. أما بالنسبة للشركات، فالرسالة مشابهة: بدلاً من مطاردة المصطلحات الرنانة، ابدأ بفحص البيانات المتوفرة، وطرح الأسئلة الصحيحة، وترك الأدلة توجه الاستراتيجية.

Source: テレ東BIZ

News On Japan
MEDIA CHANNELS
         

Image of NTT تطلق Tsuzumi2، الجيل الثاني من الذكاء الاصطناعي التوليدي

NTT تطلق Tsuzumi2، الجيل الثاني من الذكاء الاصطناعي التوليدي

أعلنت شركة NTT في 20 أكتوبر أنها أطلقت "tsuzumi2"، الجيل الثاني من نموذج اللغة الكبير (LLM) التوليدي المطوّر محليًا. النموذج الجديد يعزز القدرات المتخصصة في مجالات عالية الطلب مثل التمويل والرعاية الصحية وإدارة الحكومات المحلية.