في عام 2017، ظهر البحث “Attention is All You Need”، الذي قدّم لأول مرة نموذج Transformer المعتمد على آلية الانتباه الذاتي، متخلصاً من قيود RNN و CNN التقليدية، وبتطبيق معالجة متوازية تغلب بشكل فعال على مشكلة الاعتماد على المسافات الطويلة. في مؤتمر GTC لعام 2024، دعا الرئيس التنفيذي لشركة Nvidia، جن-هسون هوانغ، المؤلفين السبعة لنموذج Transformer للظهور معاً.
تحول نشأ من أزمة كفاءة الترجمة الآلية
! [يظهر سبعة مؤلفين بشكل جماعي](https://img-cdn.gateio.im/webp-social/moments-87a9b3933a-6d9a39f012-153d09-cd5cc0.webp019283746574839201
(المصدر: NVIDIA)
جن-هسون هوانغ استفسر عما كانت المشكلة التي واجهتهم في البداية، وما الذي ألهم الفريق لإنشاء Transformer. رد إيلليا بولوسوخين: “إذا كنت تريد إصدار نموذج يمكنه قراءة نتائج البحث فعلاً، مثل معالجة كميات كبيرة من الوثائق، فأنت بحاجة إلى نماذج يمكنها معالجة هذه المعلومات بسرعة. الشبكات العصبية التكرارية (RNN) في ذلك الوقت لم تكن تلبي هذه الحاجة.”
جاكوب أوشكوريت أضاف: “إن سرعة توليد بيانات التدريب لدينا تفوق بكثير قدرة نماذجنا المتقدمة على التدريب. في الواقع، نحن نستخدم نماذج أبسط، مثل الشبكات العصبية التلافيفية التي تستخدم n-gram كميزات إدخال. هذه النماذج، على الأقل في تدريب البيانات الضخمة بمقياس جوجل، تستطيع غالبًا تجاوز النماذج الأكثر تعقيدًا وتقدمًا بسبب سرعة التدريب الأعلى.”
قدم نوام شازير رؤى رئيسية: “يبدو أن هذه مشكلة تحتاج إلى حل عاجل. لقد بدأنا في ملاحظة هذه القوانين الخاصة بالتوسع حوالي عام 2015، ويمكنك أن ترى أنه مع زيادة حجم النموذج، تزداد درجة ذكائه. ومصدر الإحباط الكبير هو أن معالجة RNN كانت مزعجة للغاية. ثم سمعت عن هؤلاء الأشخاص وهم يناقشون، مهلاً، دعنا نستبدله بالالتفاف أو آلية الانتباه. فكرت، رائع، دعنا نفعل ذلك. أحب أن أصف Transformer بأنه قفزة من المحرك البخاري إلى المحرك الاحتراق الداخلي. كنا نستطيع إنجاز الثورة الصناعية باستخدام المحرك البخاري، لكن ذلك كان سيكون مؤلمًا للغاية، بينما جعل المحرك الاحتراق الداخلي كل شيء أفضل.”
)# المشاكل الأساسية الثلاثة التي تحلها Transformer
اعتماد المسافات الطويلة: التقاط العلاقات بين المفردات على مسافات بعيدة بفعالية من خلال آلية الانتباه الذاتي.
كفاءة التدريب: زيادة كبيرة في سرعة تدريب النموذج، مما يجعل التدريب المسبق على نطاق واسع ممكنًا
تجعل هذه الاختراقات التكنولوجية من Transformer حجر الزاوية في الذكاء الاصطناعي الحديث. تستند نماذج اللغة الكبيرة مثل ChatGPT وBERT وGPT-4 إلى بنية Transformer. ومع ذلك، بعد سبع سنوات، يعتقد المبدعون أنه حان الوقت لإحداث اختراق.
محاصر في مأزق كفاءة النموذج الأصلي
أيدان غوميز صرح: “أعتقد أن هذا العالم يحتاج إلى شيء أفضل من Transformer، وأعتقد أن جميعنا هنا نأمل أن يتم استبداله بشيء ما ليأخذنا إلى مستوى أداء جديد.” ليون جونز أضاف: “نحن عالقون في النماذج الأولية، على الرغم من أنه من الناحية التقنية، قد لا تكون أقوى شيء لدينا الآن. لكن الجميع يعرف ما نوع أدواتهم الشخصية التي يريدونها، أنتم تريدون تحسين نافذة السياق، وأنتم تريدون قدرة توليد الرموز بشكل أسرع. هم الآن يستخدمون الكثير من موارد الحوسبة. أعتقد أن الجميع قد قاموا بإهدار الكثير من الحسابات.”
أشار يعقوب أوزكوريت إلى القضية الأساسية: “لكنني أعتقد أن الأمر يتعلق بشكل أساسي بكيفية توزيع الموارد، وليس بكمية الموارد التي تم استهلاكها إجمالاً. على سبيل المثال، لا نريد إنفاق الكثير من المال على مشكلة سهلة، أو إنفاق القليل جداً على مشكلة صعبة للغاية مما يؤدي في النهاية إلى عدم الحصول على حل.”
قدم إيلليا بولوسوخين مثالًا حيًا: “هذا المثال يشبه 2+2، إذا قمت بإدخاله بشكل صحيح في هذا النموذج، فسوف يستخدم تريليون معلمة. لذلك أعتقد أن الحوسبة التكيفية هي واحدة من الأشياء التي يجب أن تظهر بعد ذلك، ونحن نعلم مقدار موارد الحوسبة التي ينبغي أن نخصصها لمشكلات معينة.” تكشف هذه الانتقادات عن العيب الأساسي في النماذج الحالية للذكاء الاصطناعي: نقص التكيف، حيث يتم تخصيص نفس موارد الحوسبة للمشكلات البسيطة والمعقدة، مما يتسبب في هدر كبير.
قام نوام شازير بتحليل الأمر من وجهة نظر اقتصادية: “أعتقد أن النماذج الحالية رخيصة للغاية، وحجمها لا يزال صغيرًا جدًا. تكلفة الحساب لكل عملية تبلغ حوالي 10 إلى 18 دولارًا. إذا نظرت إلى نموذج يحتوي على 500 مليار معلمة، ويقوم كل توكن بواحد تريليون عملية حسابية، فستكون التكلفة حوالي دولار لمليون توكن، وهذا أرخص بمئة مرة من الخروج لشراء كتاب ورقي وقراءته.” هذه وجهة نظر غير تقليدية ولكنها عميقة: AI حاليًا رخيص جدًا، مما يؤدي إلى إساءة استخدامه بدلاً من تقدير موارد الحوسبة.
الاتجاه المستقبلي: القدرة على الحساب والتفكير التكيفي
كشف لوكاش كايسر عن حقيقة مهمة: “لم نحقق النجاح في هدفنا الأصلي، وكانت نيتنا عند بدء Transformer هي محاكاة عملية تطور الرموز. إنها ليست مجرد عملية توليد خطية، بل هي تطور تدريجي للنص أو الشيفرة.” يُظهر هذا الاعتراف أن Transformer، على الرغم من نجاحه، لم يحقق تمامًا رؤية مبتكره.
أشار ياكوب أوسكورييت إلى الاتجاه التالي: “الخطوة التالية هي الاستدلال. نحن جميعًا ندرك أهمية الاستدلال، لكن العديد من الأعمال لا تزال تتم يدويًا بواسطة المهندسين. نأمل أن يتمكن النموذج من إنتاج المحتوى الذي نريده، سواء كان فيديو أو نصًا أو معلومات ثلاثية الأبعاد، يجب أن تكون جميعها مدمجة معًا.” هذا يشير إلى أن البنية التحتية للذكاء الاصطناعي في المستقبل تحتاج إلى قدرة استدلالية أقوى وتكامل متعدد الوسائط.
أضاف أيدان غوميز: “هل يمكننا تحقيق تعدد المهام، والتوازي المتعدد؟ إذا كنت ترغب حقًا في بناء مثل هذا النموذج، ساعدنا في تصميمه، هذه طريقة جيدة جدًا.” يعتقد لوكاز كايسر: “إن الاستدلال يأتي في الواقع من البيانات، نحتاج إلى جعل البيانات أكثر ثراءً.” تشير هذه المناقشات إلى عدة اتجاهات رئيسية في هياكل الذكاء الاصطناعي بعد الـ Transformer: الحساب التكيفي، تعزيز الاستدلال، دمج الأنماط المتعددة، والاستخدام الأكثر كفاءة للبيانات.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تحذير من صانع التحويل: تم حبس الذكاء الاصطناعي في الهيكل الأصلي، جن-هسون هوانغ يحث السبعة مؤلفين على كسر المأزق
في عام 2017، ظهر البحث “Attention is All You Need”، الذي قدّم لأول مرة نموذج Transformer المعتمد على آلية الانتباه الذاتي، متخلصاً من قيود RNN و CNN التقليدية، وبتطبيق معالجة متوازية تغلب بشكل فعال على مشكلة الاعتماد على المسافات الطويلة. في مؤتمر GTC لعام 2024، دعا الرئيس التنفيذي لشركة Nvidia، جن-هسون هوانغ، المؤلفين السبعة لنموذج Transformer للظهور معاً.
تحول نشأ من أزمة كفاءة الترجمة الآلية
! [يظهر سبعة مؤلفين بشكل جماعي](https://img-cdn.gateio.im/webp-social/moments-87a9b3933a-6d9a39f012-153d09-cd5cc0.webp019283746574839201
(المصدر: NVIDIA)
جن-هسون هوانغ استفسر عما كانت المشكلة التي واجهتهم في البداية، وما الذي ألهم الفريق لإنشاء Transformer. رد إيلليا بولوسوخين: “إذا كنت تريد إصدار نموذج يمكنه قراءة نتائج البحث فعلاً، مثل معالجة كميات كبيرة من الوثائق، فأنت بحاجة إلى نماذج يمكنها معالجة هذه المعلومات بسرعة. الشبكات العصبية التكرارية (RNN) في ذلك الوقت لم تكن تلبي هذه الحاجة.”
جاكوب أوشكوريت أضاف: “إن سرعة توليد بيانات التدريب لدينا تفوق بكثير قدرة نماذجنا المتقدمة على التدريب. في الواقع، نحن نستخدم نماذج أبسط، مثل الشبكات العصبية التلافيفية التي تستخدم n-gram كميزات إدخال. هذه النماذج، على الأقل في تدريب البيانات الضخمة بمقياس جوجل، تستطيع غالبًا تجاوز النماذج الأكثر تعقيدًا وتقدمًا بسبب سرعة التدريب الأعلى.”
قدم نوام شازير رؤى رئيسية: “يبدو أن هذه مشكلة تحتاج إلى حل عاجل. لقد بدأنا في ملاحظة هذه القوانين الخاصة بالتوسع حوالي عام 2015، ويمكنك أن ترى أنه مع زيادة حجم النموذج، تزداد درجة ذكائه. ومصدر الإحباط الكبير هو أن معالجة RNN كانت مزعجة للغاية. ثم سمعت عن هؤلاء الأشخاص وهم يناقشون، مهلاً، دعنا نستبدله بالالتفاف أو آلية الانتباه. فكرت، رائع، دعنا نفعل ذلك. أحب أن أصف Transformer بأنه قفزة من المحرك البخاري إلى المحرك الاحتراق الداخلي. كنا نستطيع إنجاز الثورة الصناعية باستخدام المحرك البخاري، لكن ذلك كان سيكون مؤلمًا للغاية، بينما جعل المحرك الاحتراق الداخلي كل شيء أفضل.”
)# المشاكل الأساسية الثلاثة التي تحلها Transformer
المعالجة المتوازية: التخلص من قيود المعالجة التتابعية لشبكات RNN، وتحقيق حسابات حقيقية متوازية
اعتماد المسافات الطويلة: التقاط العلاقات بين المفردات على مسافات بعيدة بفعالية من خلال آلية الانتباه الذاتي.
كفاءة التدريب: زيادة كبيرة في سرعة تدريب النموذج، مما يجعل التدريب المسبق على نطاق واسع ممكنًا
تجعل هذه الاختراقات التكنولوجية من Transformer حجر الزاوية في الذكاء الاصطناعي الحديث. تستند نماذج اللغة الكبيرة مثل ChatGPT وBERT وGPT-4 إلى بنية Transformer. ومع ذلك، بعد سبع سنوات، يعتقد المبدعون أنه حان الوقت لإحداث اختراق.
محاصر في مأزق كفاءة النموذج الأصلي
أيدان غوميز صرح: “أعتقد أن هذا العالم يحتاج إلى شيء أفضل من Transformer، وأعتقد أن جميعنا هنا نأمل أن يتم استبداله بشيء ما ليأخذنا إلى مستوى أداء جديد.” ليون جونز أضاف: “نحن عالقون في النماذج الأولية، على الرغم من أنه من الناحية التقنية، قد لا تكون أقوى شيء لدينا الآن. لكن الجميع يعرف ما نوع أدواتهم الشخصية التي يريدونها، أنتم تريدون تحسين نافذة السياق، وأنتم تريدون قدرة توليد الرموز بشكل أسرع. هم الآن يستخدمون الكثير من موارد الحوسبة. أعتقد أن الجميع قد قاموا بإهدار الكثير من الحسابات.”
أشار يعقوب أوزكوريت إلى القضية الأساسية: “لكنني أعتقد أن الأمر يتعلق بشكل أساسي بكيفية توزيع الموارد، وليس بكمية الموارد التي تم استهلاكها إجمالاً. على سبيل المثال، لا نريد إنفاق الكثير من المال على مشكلة سهلة، أو إنفاق القليل جداً على مشكلة صعبة للغاية مما يؤدي في النهاية إلى عدم الحصول على حل.”
قدم إيلليا بولوسوخين مثالًا حيًا: “هذا المثال يشبه 2+2، إذا قمت بإدخاله بشكل صحيح في هذا النموذج، فسوف يستخدم تريليون معلمة. لذلك أعتقد أن الحوسبة التكيفية هي واحدة من الأشياء التي يجب أن تظهر بعد ذلك، ونحن نعلم مقدار موارد الحوسبة التي ينبغي أن نخصصها لمشكلات معينة.” تكشف هذه الانتقادات عن العيب الأساسي في النماذج الحالية للذكاء الاصطناعي: نقص التكيف، حيث يتم تخصيص نفس موارد الحوسبة للمشكلات البسيطة والمعقدة، مما يتسبب في هدر كبير.
قام نوام شازير بتحليل الأمر من وجهة نظر اقتصادية: “أعتقد أن النماذج الحالية رخيصة للغاية، وحجمها لا يزال صغيرًا جدًا. تكلفة الحساب لكل عملية تبلغ حوالي 10 إلى 18 دولارًا. إذا نظرت إلى نموذج يحتوي على 500 مليار معلمة، ويقوم كل توكن بواحد تريليون عملية حسابية، فستكون التكلفة حوالي دولار لمليون توكن، وهذا أرخص بمئة مرة من الخروج لشراء كتاب ورقي وقراءته.” هذه وجهة نظر غير تقليدية ولكنها عميقة: AI حاليًا رخيص جدًا، مما يؤدي إلى إساءة استخدامه بدلاً من تقدير موارد الحوسبة.
الاتجاه المستقبلي: القدرة على الحساب والتفكير التكيفي
كشف لوكاش كايسر عن حقيقة مهمة: “لم نحقق النجاح في هدفنا الأصلي، وكانت نيتنا عند بدء Transformer هي محاكاة عملية تطور الرموز. إنها ليست مجرد عملية توليد خطية، بل هي تطور تدريجي للنص أو الشيفرة.” يُظهر هذا الاعتراف أن Transformer، على الرغم من نجاحه، لم يحقق تمامًا رؤية مبتكره.
أشار ياكوب أوسكورييت إلى الاتجاه التالي: “الخطوة التالية هي الاستدلال. نحن جميعًا ندرك أهمية الاستدلال، لكن العديد من الأعمال لا تزال تتم يدويًا بواسطة المهندسين. نأمل أن يتمكن النموذج من إنتاج المحتوى الذي نريده، سواء كان فيديو أو نصًا أو معلومات ثلاثية الأبعاد، يجب أن تكون جميعها مدمجة معًا.” هذا يشير إلى أن البنية التحتية للذكاء الاصطناعي في المستقبل تحتاج إلى قدرة استدلالية أقوى وتكامل متعدد الوسائط.
أضاف أيدان غوميز: “هل يمكننا تحقيق تعدد المهام، والتوازي المتعدد؟ إذا كنت ترغب حقًا في بناء مثل هذا النموذج، ساعدنا في تصميمه، هذه طريقة جيدة جدًا.” يعتقد لوكاز كايسر: “إن الاستدلال يأتي في الواقع من البيانات، نحتاج إلى جعل البيانات أكثر ثراءً.” تشير هذه المناقشات إلى عدة اتجاهات رئيسية في هياكل الذكاء الاصطناعي بعد الـ Transformer: الحساب التكيفي، تعزيز الاستدلال، دمج الأنماط المتعددة، والاستخدام الأكثر كفاءة للبيانات.