المصدر الأصلي: مراجعة يوانشوان للعلوم والتكنولوجيا
مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
في الشهر الماضي ، اندلعت "حرب الحيوانات" في صناعة الذكاء الاصطناعي.
على جانب واحد ، يوجد Meta's Llama (اللاما) ، والذي كان تاريخيا شائعا لدى مجتمع المطورين بسبب طبيعته مفتوحة المصدر. بعد دراسة ورقة اللاما وشفرة المصدر بعناية ، سرعان ما "طورت NEC بشكل مستقل" النسخة اليابانية من ChatGPT ، مما ساعد اليابان على حل مشكلة الرقبة الذكاء الاصطناعي.
** على الجانب الآخر نموذج كبير يسمى الصقر (الصقر). ** في مايو من هذا العام ، تم إطلاق Falcon-40B ، متغلبا على اللاما إلى "تصنيف LLM (نموذج اللغة الكبيرة) مفتوح المصدر".
توفر القائمة ، التي أنتجتها Hugging face ، وهي مجتمع نموذجي مفتوح المصدر ، مجموعة من المعايير لقياس قدرات LLM وترتيبها. لوحة المتصدرين هي في الأساس Llama و Falcon يتناوبان على التمرير عبر المخططات.
بعد إطلاق اللاما 2 ، استعادت عائلة اللاما مدينة. ولكن في أوائل سبتمبر ، أطلقت Falcon إصدار 180B ، وحققت مرة أخرى تصنيفات أعلى.
سحق الصقر اللاما 2 برصيد 68.74 نقطة
ومن المثير للاهتمام أن مطور "فالكون" ليس شركة تكنولوجيا ، بل معهد العلوم والابتكار التكنولوجي ومقره أبو ظبي ، عاصمة دولة الإمارات العربية المتحدة. وقالت مصادر حكومية: "نحن نشارك في هذه اللعبة لتخريب اللاعبين الأساسيين".[4] 。
في اليوم التالي لإصدار الإصدار 180B ، تم اختيار وزير الذكاء الاصطناعي الإماراتي عمر كواحد من "أكثر 100 شخصية مؤثرة في مجال الذكاء الاصطناعي" من قبل مجلة تايم. إلى جانب هذا الوجه الشرق أوسطي ، كان "الأب الروحي ل الذكاء الاصطناعي" هينتون ، وألتمان من OpenAI ، وروبن لي.
وزير الإمارات للذكاء الاصطناعي
اليوم ، دخل مجال الذكاء الاصطناعي بالفعل مرحلة "الرقص الجماعي": جميع البلدان والمؤسسات التي لديها القليل من الموارد المالية لديها خطط أكثر أو أقل لإنشاء "نسخة وطنية XX من ChatGPT". هناك أكثر من لاعب واحد في دوائر الخليج وحدها - اشترت المملكة العربية السعودية للتو أكثر من 3000 H100s لجامعاتها في أغسطس لتدريب LLM.
اشتكى Zhu Xiaohu ، وهو رأس مال استثماري في GSR River ، ذات مرة في دائرة الأصدقاء: "في ذلك الوقت ، نظرت بازدراء إلى ابتكار نموذج الأعمال (للإنترنت) وشعرت أنه لا توجد حواجز: حرب مائة فوج ، مائة حرب سيارات ، مائة حرب بث. لم أكن أتوقع أن ريادة الأعمال الكبيرة في مجال التكنولوجيا الصلبة لا تزال مائة حرب نموذجية ...
كيف يمكن للتكنولوجيا الصلبة عالية الصعوبة التي يقال إنها دولة أن تنتج 100000 قطط لكل مو؟
المحولات تلتهم العالم
تمكنت الشركات الناشئة الأمريكية وعمالقة التكنولوجيا في الصين وبارونات النفط في الشرق الأوسط من الحلم بنماذج كبيرة بفضل الورقة الشهيرة: "الاهتمام هو كل ما تحتاجه".
في عام 2017 ، كشف 8 من علماء الكمبيوتر في Google عن خوارزمية Transformer للعالم في هذه الورقة. تعد هذه الورقة حاليا ثالث أكثر الأوراق التي يتم الاستشهاد بها في تاريخ الذكاء الاصطناعي ، وقد أدى ظهور Transformer إلى سحب الزناد لهذه الجولة من طفرة الذكاء الاصطناعي.
بغض النظر عن الجنسية ، فإن النماذج الكبيرة الحالية ، بما في ذلك سلسلة GPT التي تهز العالم ، تقف على أكتاف Transformer.
قبل ذلك ، كان "تعليم الآلات للقراءة" مشكلة أكاديمية معترف بها. يختلف عن التعرف على الصور ، عندما يقرأ البشر النص ، لن ينتبهوا فقط إلى الكلمات والجمل التي يرونها حاليا ، ولكن أيضا يفهمونها في السياق.
على سبيل المثال ، يمكن ترجمة كلمة "Transformer" على أنها "Transformer" ، لكن قراء هذه المقالة بالتأكيد لن يفهموها بهذه الطريقة ، لأن الجميع يعلم أن هذا ليس مقالا عن أفلام هوليوود. **
ومع ذلك ، في السنوات الأولى ، كانت مدخلات الشبكات العصبية مستقلة عن بعضها البعض ، ولم يكن لديهم القدرة على فهم فقرة كبيرة من النص أو حتى المقالة بأكملها ، لذلك نشأت مشكلة ترجمة "غرفة الماء المغلي" إلى "غرفة المياه المفتوحة".
لم يكن إيليا سوتسكيفر ، عالم الكمبيوتر الذي عمل في Google وانتقل لاحقا إلى OpenAI ، أول من حقق نتائج حتى عام 2014. استخدم الشبكات العصبية المتكررة (RNNs) لمعالجة اللغة الطبيعية ، مما أدى بسرعة إلى تمييز أداء ترجمة Google عن المنافسة.
يقترح RNN "تصميم حلقة" ، بحيث تقبل كل خلية عصبية كل من معلومات الإدخال في اللحظة الحالية ومعلومات الإدخال في اللحظة السابقة ، بحيث يكون للشبكة العصبية القدرة على "الجمع بين السياق".
الشبكات العصبية المتكررة
أشعل ظهور RNNs شغفا بالبحث في الأوساط الأكاديمية ، وكان نعوم شازير ، مؤلف ورقة Transformer ، مدمنا عليها أيضا. ومع ذلك ، أدرك المطورون بسرعة أن RNNs بها عيب خطير:
** تستخدم الخوارزمية حسابات متسلسلة ، والتي يمكن أن تحل مشكلة السياق ، ولكنها ليست فعالة ويصعب التعامل مع عدد كبير من المعلمات. **
التصميم المرهق ل RNN سرعان ما تحمل Shazel. لذلك منذ عام 2015 ، يعمل Shazel و 7 أصدقاء على تطوير بدائل ل RNNs ، والنتيجة هي Transformer[8] 。
نعوم شازير
بالمقارنة مع RNNs ، فإن تحويل Transformer له نقطتان:
أولا ، يتم استبدال تصميم حلقة RNNs بالترميز الموضعي ، وبالتالي تحقيق الحوسبة المتوازية - هذا التغيير يحسن بشكل كبير من كفاءة تدريب Transformer ، وبالتالي يصبح قادرا على معالجة البيانات الضخمة ، مما يدفع الذكاء الاصطناعي إلى عصر النماذج الكبيرة ؛ ثانيا، تم تعزيز القدرة على زيادة تعزيز السياق.
نظرا لأن Transformer حل العديد من العيوب دفعة واحدة ، فقد تطور تدريجيا إلى الحل الوحيد ل NLP (معالجة اللغة الطبيعية) ، والذي لديه شعور بأن "المحول لا يولد في الطبيعة ، البرمجة اللغوية العصبية تشبه ليلة طويلة". حتى إيليا تخلى عن RNN ، الذي كان يحمل المذبح بيديه ، وتحول إلى Transformer.
بعبارة أخرى ، المحول هو جد جميع النماذج الكبيرة اليوم ، لأنه حول النموذج الكبير من مشكلة بحث نظري إلى مشكلة هندسية بحتة. **
[9]مخطط شجرة تطوير تقنية LLM ، جذر الشجرة الرمادية هو المحول
في عام 2019 ، طورت OpenAI GPT-2 استنادا إلى Transformer ، والتي فاجأت الدائرة الأكاديمية ذات يوم. ردا على ذلك ، طرحت Google بسرعة الذكاء الاصطناعي أكثر قوة يسمى Meena.
بالمقارنة مع GPT-2 ، ليس لدى مينا ابتكار خوارزمية أساسي ، ولكن 8.5 مرة أكثر من معلمات التدريب و 14 مرة قوة حوسبة أكثر من GPT-2. صدم شازيل ، مؤلف ورقة Transformer ، من "الكومة العنيفة" لدرجة أنه كتب مذكرة على الفور "مينا تلتهم العالم".
أدى ظهور Transformer إلى إبطاء ابتكار الخوارزميات الأساسية في الأوساط الأكاديمية بشكل كبير. أصبحت العناصر الهندسية مثل هندسة البيانات ومقياس قوة الحوسبة وبنية النموذج بشكل متزايد رابحين وخاسرين مهمين في المنافسة الذكاء الاصطناعي ، وطالما أن شركات التكنولوجيا التي تتمتع ببعض القدرات التقنية يمكنها فرك نموذج كبير يدويا.
لذلك ، عندما ألقى عالم الكمبيوتر أندرو نج خطابا في جامعة ستانفورد ، ذكر نقطة: "الذكاء الاصطناعي عبارة عن مجموعة من الأدوات ، بما في ذلك التعلم الخاضع للإشراف ، والتعلم غير الخاضع للإشراف ، والتعلم المعزز ، والآن الذكاء الاصطناعي التوليدي". كل هذه تقنيات للأغراض العامة ، على غرار التقنيات الأخرى للأغراض العامة مثل الكهرباء والإنترنت.[10] "
لا تزال OpenAI رائدة في LLM ، لكن شركة تحليل أشباه الموصلات Semi Analysis تعتقد أن القدرة التنافسية ل GPT-4 تأتي من الحلول الهندسية - إذا كان المصدر المفتوح ، يمكن لأي منافس تكراره بسرعة.
يتوقع المحلل أنه قد لا يمر وقت طويل قبل أن تتمكن شركات التكنولوجيا الكبرى الأخرى من إنشاء نماذج كبيرة بنفس أداء GPT-4[11] 。
خندق مبني على الزجاج
في الوقت الحاضر ، لم تعد "الحرب النموذجية المائة" أداة بلاغية ، بل حقيقة موضوعية.
تظهر التقارير ذات الصلة أنه اعتبارا من يوليو من هذا العام ، وصل عدد النماذج الكبيرة المحلية إلى 130 ، وهو أعلى من 114 في الولايات المتحدة ، ونجح في تحقيق تجاوز الزاوية ، والخرافات والأساطير المختلفة لا تكفي تقريبا لشركات التكنولوجيا المحلية لأخذ الأسماء.[12] 。
بالإضافة إلى الصين والولايات المتحدة ، حقق عدد من الدول الأكثر ثراء في البداية "دولة واحدة ، نموذج واحد:* * بالإضافة إلى اليابان والإمارات العربية المتحدة ، هناك أيضا نموذج كبير بقيادة الحكومة الهندية Bhashini ، وشركة الإنترنت الكورية الجنوبية Naver's HyperClova X وما إلى ذلك. **
يبدو أن المعركة أمامنا قد عادت إلى عصر ريادة الإنترنت ، حيث تم قصف الفقاعات و "قدرات الأوراق النقدية".
كما ذكرنا سابقا ، يحول Transformer النماذج الكبيرة إلى مشاكل هندسية بحتة ، طالما أن شخصا ما لديه المال وبطاقات الرسومات ، يتم فقد الباقي على المعلمات. ومع ذلك ، على الرغم من أنه ليس من الصعب الحصول على تذكرة الدخول ، إلا أن هذا لا يعني أن كل شخص لديه الفرصة ليصبح أفضل التقنيات المتاحة في عصر الذكاء الاصطناعي.
"حرب الحيوانات" المذكورة في البداية هي حالة نموذجية: على الرغم من فوز فالكون على اللاما في الترتيب ، إلا أنه من الصعب تحديد مدى تأثيرها على ميتا. **
كما نعلم جميعا ، فإن الشركات مفتوحة المصدر نتائج البحث العلمي الخاصة بها ، ليس فقط لمشاركة رفاهية العلوم والتكنولوجيا مع الجمهور ، ولكن أيضا لتعبئة حكمة الناس. مع استمرار أساتذة الجامعات والمؤسسات البحثية والشركات الصغيرة والمتوسطة في استخدام اللاما وتحسينها، يمكن ل Meta تطبيق هذه النتائج على منتجاتها الخاصة.
** بالنسبة لنموذج المصدر المفتوح ، فإن مجتمع المطورين النشط هو كفاءته الأساسية. **
في وقت مبكر من عام 2015 ، عندما تم إنشاء مختبر الذكاء الاصطناعي ، حددت Meta النغمة الرئيسية للمصدر المفتوح. حقق زوكربيرج أيضا ثروته في مجال وسائل التواصل الاجتماعي ، وهو على دراية جيدة بمسألة "القيام بعمل جيد في العلاقات العامة".
على سبيل المثال، في أكتوبر، أطلقت ميتا حملة "حافز الذكاء الاصطناعي لمنشئي المحتوى": ستتاح للمطورين الذين يستخدمون اللاما 2 لحل المشكلات الاجتماعية مثل التعليم والبيئة الفرصة لتلقي تمويل بقيمة 500,000 دولار.
اليوم ، سلسلة اللاما من Meta هي ريشة LLM مفتوحة المصدر.
اعتبارا من أوائل أكتوبر ، يعتمد ما مجموعه 8 من أفضل 10 قوائم LLM مفتوحة المصدر في Hugging face على Llama 2 وتستخدم ترخيصها مفتوح المصدر. على وجه المعانقة وحده ، هناك أكثر من 1500 LLMs باستخدام بروتوكول Llama 2 مفتوح المصدر[13] 。
اعتبارا من أوائل أكتوبر ، يعتمد LLM رقم واحد على Hugging Face على Llama 2
بالطبع ، لا بأس من تحسين الأداء مثل Falcon ، ولكن حتى يومنا هذا ، لا تزال معظم LLMs في السوق تعاني من فجوة أداء واضحة مع GPT-4.
على سبيل المثال ، في اليوم الآخر ، تصدرت GPT-4 اختبار AgentBench بدرجة 4.41. تم إطلاق معيار AgentBench بشكل مشترك من قبل جامعة تسينغهوا وجامعة ولاية أوهايو وجامعة كاليفورنيا ، بيركلي ، لتقييم قدرة LLM على التفكير والقدرة على اتخاذ القرار في بيئة توليد مفتوحة متعددة الأبعاد ، بما في ذلك المهام في 8 بيئات مختلفة مثل نظام التشغيل وقاعدة البيانات والرسم البياني المعرفي ومعركة البطاقات.
أظهرت نتائج الاختبار أن كلود ، الذي احتل المركز الثاني ، حصل على 2.77 نقطة فقط ، وكانت الفجوة لا تزال واضحة. أما بالنسبة لتلك LLMs الضخمة مفتوحة المصدر ، فإن درجات اختبارهم تحوم حول نقطة واحدة ، أقل من 1/4 من GPT-4[14] 。
نتائج اختبار AgentBench
كما تعلمون ، تم إصدار GPT-4 في مارس من هذا العام ، والذي لا يزال النتيجة بعد أن لحق أقرانهم العالميون بالركب لأكثر من نصف عام. ما يسبب هذه الفجوة هو الخبرة المتراكمة من قبل فريق علماء OpenAI مع "كثافة ذكاء" عالية وماجستير في البحث طويل الأجل ، لذلك يمكن أن يكون دائما في المقدمة.
بمعنى آخر ، القدرة الأساسية للنموذج الكبير ليست معلمة ، ولكن بناء البيئة (المصدر المفتوح) أو القدرة على التفكير الخالص (المصدر المغلق). **
عندما يصبح مجتمع المصادر المفتوحة أكثر نشاطا ، قد يتقارب أداء LLMs لأنهم جميعا يستخدمون معماريات نماذج مماثلة ومجموعات بيانات مماثلة.
لغز آخر أكثر بديهية: بصرف النظر عن Midjourney ، لا يبدو أن أي نموذج كبير يكسب المال.
مرساة القيمة
في أغسطس من هذا العام ، جذبت مقالة غريبة بعنوان "OpenAI قد تفلس بحلول نهاية عام 2024" الكثير من الاهتمام[16] 。 يمكن تلخيص الاتجاه الرئيسي للمقال في جملة واحدة تقريبا: أموال OpenAI المحترقة سريعة جدا. **
ذكر المقال أنه منذ تطوير ChatGPT ، تتوسع خسائر OpenAI بسرعة ، حيث خسرت حوالي 540 مليون دولار في عام 2022 وحده ، ولا يمكنها سوى انتظار دفع مستثمري Microsoft.
على الرغم من أن عنوان المقال مثير ، إلا أنه يخبرنا أيضا بالوضع الحالي للعديد من مزودي النماذج الكبار: ** هناك اختلال خطير في التوازن بين التكلفة والإيرادات. **
التكلفة مرتفعة للغاية ، مما يؤدي إلى الاعتماد الحالي على الذكاء الاصطناعي لكسب الكثير من المال فقط NVIDIA ، على الأكثر إضافة Broadcom.
وفقا لشركة الاستشارات Omdia ، باعت Nvidia أكثر من 300000 وحدة H100 في الربع الثاني من هذا العام. هذه شريحة الذكاء الاصطناعي ، وكفاءة التدريب الذكاء الاصطناعي عالية للغاية ، وشركات التكنولوجيا ومؤسسات البحث العلمي في جميع أنحاء العالم تقتاز. إذا تم تكديس 300000 طائرة H100 المباعة فوق بعضها البعض ، فستزن ما يعادل 4.5 طائرة بوينج 747.[18] 。
انطلق أداء Nvidia أيضا ، حيث ارتفع بنسبة 854٪ على أساس سنوي ، الأمر الذي صدم فك وول ستريت ذات مرة. بالمناسبة ، تم التكهن بالسعر الحالي ل H100 في سوق السلع المستعملة إلى 40,000-50,000 دولار ، لكن تكلفته المادية تبلغ حوالي 3,000 دولار فقط.
أصبحت التكلفة العالية لقوة الحوسبة مقاومة لتطوير الصناعة إلى حد ما. أجرت سيكويا كابيتال حسابا: ** من المتوقع أن تنفق شركات التكنولوجيا العالمية 200 مليار دولار سنويا على بناء البنية التحتية ذات النماذج الكبيرة. في المقابل، يمكن للنماذج الكبيرة أن تولد ما يصل إلى 75 مليار دولار فقط في السنة، مع وجود فجوة لا تقل عن 125 مليار دولار.[17] 。 **
جنسن هوانغ مع H100
بالإضافة إلى ذلك ، مع استثناءات قليلة مثل Midjourney ، لم تكتشف معظم شركات البرمجيات بعد كيفية كسب المال بعد دفع تكاليف باهظة. على وجه الخصوص ، تعثر الشقيقان الكبيران الرائدان في الصناعة ، Microsoft و Adobe ، قليلا.
تعاونت Microsoft و OpenAI لتطوير أداة إنشاء التعليمات البرمجية الذكاء الاصطناعي ، GitHub Copilot ، والتي تتقاضى 10 دولارات شهريا ، ولكن نظرا لتكلفة المرافق ، تخسر Microsoft 20 دولارا ، ويمكن للمستخدمين الثقيل حتى جعل Microsoft تدفع 80 دولارا في الشهر. بناء على هذه التكهنات ، فإن Microsoft 365 Copilot بقيمة 30 دولارا ليست خسارة.
من قبيل الصدفة ، أطلقت Adobe ، التي أصدرت للتو أداة Firefly الذكاء الاصطناعي ، بسرعة نظام نقاط دعم لمنع المستخدمين من استخدامه بكثافة والتسبب في خسارة الشركة للمال. بمجرد أن يستخدم المستخدم أكثر من الاعتمادات المخصصة كل شهر، تقوم Adobe بإبطاء الخدمة.
يجب أن تعلم أن Microsoft و Adobe هما بالفعل عمالقة برامج مع سيناريوهات عمل واضحة وعدد كبير من المستخدمين الذين يدفعون الجاهزين. معظم المعلمات مكدسة في السماء ، وأكبر سيناريو للتطبيق هو الدردشة.
لا يمكن إنكار أنه بدون ظهور OpenAI و ChatGPT ، ربما لم تكن هذه الثورة الذكاء الاصطناعي قد حدثت على الإطلاق. ولكن في الوقت الحاضر ، قد تكون قيمة تدريب النماذج الكبيرة علامة استفهام.
علاوة على ذلك ، مع اشتداد المنافسة على التجانس ووجود المزيد والمزيد من النماذج مفتوحة المصدر في السوق ، قد يكون هناك مجال أقل للبائعين البسطاء ذوي النماذج الكبيرة.
شعبية iPhone 4 ليست بسبب معالج 45nm A4 ، ولكن لأنه يمكن أن يلعب Plants vs. Zombies و Angry Birds.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أليس النموذج الكبير أكثر من اللازم؟
المصدر الأصلي: مراجعة يوانشوان للعلوم والتكنولوجيا
في الشهر الماضي ، اندلعت "حرب الحيوانات" في صناعة الذكاء الاصطناعي.
على جانب واحد ، يوجد Meta's Llama (اللاما) ، والذي كان تاريخيا شائعا لدى مجتمع المطورين بسبب طبيعته مفتوحة المصدر. بعد دراسة ورقة اللاما وشفرة المصدر بعناية ، سرعان ما "طورت NEC بشكل مستقل" النسخة اليابانية من ChatGPT ، مما ساعد اليابان على حل مشكلة الرقبة الذكاء الاصطناعي.
** على الجانب الآخر نموذج كبير يسمى الصقر (الصقر). ** في مايو من هذا العام ، تم إطلاق Falcon-40B ، متغلبا على اللاما إلى "تصنيف LLM (نموذج اللغة الكبيرة) مفتوح المصدر".
توفر القائمة ، التي أنتجتها Hugging face ، وهي مجتمع نموذجي مفتوح المصدر ، مجموعة من المعايير لقياس قدرات LLM وترتيبها. لوحة المتصدرين هي في الأساس Llama و Falcon يتناوبان على التمرير عبر المخططات.
بعد إطلاق اللاما 2 ، استعادت عائلة اللاما مدينة. ولكن في أوائل سبتمبر ، أطلقت Falcon إصدار 180B ، وحققت مرة أخرى تصنيفات أعلى.
ومن المثير للاهتمام أن مطور "فالكون" ليس شركة تكنولوجيا ، بل معهد العلوم والابتكار التكنولوجي ومقره أبو ظبي ، عاصمة دولة الإمارات العربية المتحدة. وقالت مصادر حكومية: "نحن نشارك في هذه اللعبة لتخريب اللاعبين الأساسيين".[4] 。
في اليوم التالي لإصدار الإصدار 180B ، تم اختيار وزير الذكاء الاصطناعي الإماراتي عمر كواحد من "أكثر 100 شخصية مؤثرة في مجال الذكاء الاصطناعي" من قبل مجلة تايم. إلى جانب هذا الوجه الشرق أوسطي ، كان "الأب الروحي ل الذكاء الاصطناعي" هينتون ، وألتمان من OpenAI ، وروبن لي.
اليوم ، دخل مجال الذكاء الاصطناعي بالفعل مرحلة "الرقص الجماعي": جميع البلدان والمؤسسات التي لديها القليل من الموارد المالية لديها خطط أكثر أو أقل لإنشاء "نسخة وطنية XX من ChatGPT". هناك أكثر من لاعب واحد في دوائر الخليج وحدها - اشترت المملكة العربية السعودية للتو أكثر من 3000 H100s لجامعاتها في أغسطس لتدريب LLM.
اشتكى Zhu Xiaohu ، وهو رأس مال استثماري في GSR River ، ذات مرة في دائرة الأصدقاء: "في ذلك الوقت ، نظرت بازدراء إلى ابتكار نموذج الأعمال (للإنترنت) وشعرت أنه لا توجد حواجز: حرب مائة فوج ، مائة حرب سيارات ، مائة حرب بث. لم أكن أتوقع أن ريادة الأعمال الكبيرة في مجال التكنولوجيا الصلبة لا تزال مائة حرب نموذجية ...
كيف يمكن للتكنولوجيا الصلبة عالية الصعوبة التي يقال إنها دولة أن تنتج 100000 قطط لكل مو؟
المحولات تلتهم العالم
تمكنت الشركات الناشئة الأمريكية وعمالقة التكنولوجيا في الصين وبارونات النفط في الشرق الأوسط من الحلم بنماذج كبيرة بفضل الورقة الشهيرة: "الاهتمام هو كل ما تحتاجه".
في عام 2017 ، كشف 8 من علماء الكمبيوتر في Google عن خوارزمية Transformer للعالم في هذه الورقة. تعد هذه الورقة حاليا ثالث أكثر الأوراق التي يتم الاستشهاد بها في تاريخ الذكاء الاصطناعي ، وقد أدى ظهور Transformer إلى سحب الزناد لهذه الجولة من طفرة الذكاء الاصطناعي.
بغض النظر عن الجنسية ، فإن النماذج الكبيرة الحالية ، بما في ذلك سلسلة GPT التي تهز العالم ، تقف على أكتاف Transformer.
قبل ذلك ، كان "تعليم الآلات للقراءة" مشكلة أكاديمية معترف بها. يختلف عن التعرف على الصور ، عندما يقرأ البشر النص ، لن ينتبهوا فقط إلى الكلمات والجمل التي يرونها حاليا ، ولكن أيضا يفهمونها في السياق.
على سبيل المثال ، يمكن ترجمة كلمة "Transformer" على أنها "Transformer" ، لكن قراء هذه المقالة بالتأكيد لن يفهموها بهذه الطريقة ، لأن الجميع يعلم أن هذا ليس مقالا عن أفلام هوليوود. **
ومع ذلك ، في السنوات الأولى ، كانت مدخلات الشبكات العصبية مستقلة عن بعضها البعض ، ولم يكن لديهم القدرة على فهم فقرة كبيرة من النص أو حتى المقالة بأكملها ، لذلك نشأت مشكلة ترجمة "غرفة الماء المغلي" إلى "غرفة المياه المفتوحة".
لم يكن إيليا سوتسكيفر ، عالم الكمبيوتر الذي عمل في Google وانتقل لاحقا إلى OpenAI ، أول من حقق نتائج حتى عام 2014. استخدم الشبكات العصبية المتكررة (RNNs) لمعالجة اللغة الطبيعية ، مما أدى بسرعة إلى تمييز أداء ترجمة Google عن المنافسة.
يقترح RNN "تصميم حلقة" ، بحيث تقبل كل خلية عصبية كل من معلومات الإدخال في اللحظة الحالية ومعلومات الإدخال في اللحظة السابقة ، بحيث يكون للشبكة العصبية القدرة على "الجمع بين السياق".
أشعل ظهور RNNs شغفا بالبحث في الأوساط الأكاديمية ، وكان نعوم شازير ، مؤلف ورقة Transformer ، مدمنا عليها أيضا. ومع ذلك ، أدرك المطورون بسرعة أن RNNs بها عيب خطير:
** تستخدم الخوارزمية حسابات متسلسلة ، والتي يمكن أن تحل مشكلة السياق ، ولكنها ليست فعالة ويصعب التعامل مع عدد كبير من المعلمات. **
التصميم المرهق ل RNN سرعان ما تحمل Shazel. لذلك منذ عام 2015 ، يعمل Shazel و 7 أصدقاء على تطوير بدائل ل RNNs ، والنتيجة هي Transformer[8] 。
بالمقارنة مع RNNs ، فإن تحويل Transformer له نقطتان:
أولا ، يتم استبدال تصميم حلقة RNNs بالترميز الموضعي ، وبالتالي تحقيق الحوسبة المتوازية - هذا التغيير يحسن بشكل كبير من كفاءة تدريب Transformer ، وبالتالي يصبح قادرا على معالجة البيانات الضخمة ، مما يدفع الذكاء الاصطناعي إلى عصر النماذج الكبيرة ؛ ثانيا، تم تعزيز القدرة على زيادة تعزيز السياق.
نظرا لأن Transformer حل العديد من العيوب دفعة واحدة ، فقد تطور تدريجيا إلى الحل الوحيد ل NLP (معالجة اللغة الطبيعية) ، والذي لديه شعور بأن "المحول لا يولد في الطبيعة ، البرمجة اللغوية العصبية تشبه ليلة طويلة". حتى إيليا تخلى عن RNN ، الذي كان يحمل المذبح بيديه ، وتحول إلى Transformer.
بعبارة أخرى ، المحول هو جد جميع النماذج الكبيرة اليوم ، لأنه حول النموذج الكبير من مشكلة بحث نظري إلى مشكلة هندسية بحتة. **
في عام 2019 ، طورت OpenAI GPT-2 استنادا إلى Transformer ، والتي فاجأت الدائرة الأكاديمية ذات يوم. ردا على ذلك ، طرحت Google بسرعة الذكاء الاصطناعي أكثر قوة يسمى Meena.
بالمقارنة مع GPT-2 ، ليس لدى مينا ابتكار خوارزمية أساسي ، ولكن 8.5 مرة أكثر من معلمات التدريب و 14 مرة قوة حوسبة أكثر من GPT-2. صدم شازيل ، مؤلف ورقة Transformer ، من "الكومة العنيفة" لدرجة أنه كتب مذكرة على الفور "مينا تلتهم العالم".
أدى ظهور Transformer إلى إبطاء ابتكار الخوارزميات الأساسية في الأوساط الأكاديمية بشكل كبير. أصبحت العناصر الهندسية مثل هندسة البيانات ومقياس قوة الحوسبة وبنية النموذج بشكل متزايد رابحين وخاسرين مهمين في المنافسة الذكاء الاصطناعي ، وطالما أن شركات التكنولوجيا التي تتمتع ببعض القدرات التقنية يمكنها فرك نموذج كبير يدويا.
لذلك ، عندما ألقى عالم الكمبيوتر أندرو نج خطابا في جامعة ستانفورد ، ذكر نقطة: "الذكاء الاصطناعي عبارة عن مجموعة من الأدوات ، بما في ذلك التعلم الخاضع للإشراف ، والتعلم غير الخاضع للإشراف ، والتعلم المعزز ، والآن الذكاء الاصطناعي التوليدي". كل هذه تقنيات للأغراض العامة ، على غرار التقنيات الأخرى للأغراض العامة مثل الكهرباء والإنترنت.[10] "
لا تزال OpenAI رائدة في LLM ، لكن شركة تحليل أشباه الموصلات Semi Analysis تعتقد أن القدرة التنافسية ل GPT-4 تأتي من الحلول الهندسية - إذا كان المصدر المفتوح ، يمكن لأي منافس تكراره بسرعة.
يتوقع المحلل أنه قد لا يمر وقت طويل قبل أن تتمكن شركات التكنولوجيا الكبرى الأخرى من إنشاء نماذج كبيرة بنفس أداء GPT-4[11] 。
خندق مبني على الزجاج
في الوقت الحاضر ، لم تعد "الحرب النموذجية المائة" أداة بلاغية ، بل حقيقة موضوعية.
تظهر التقارير ذات الصلة أنه اعتبارا من يوليو من هذا العام ، وصل عدد النماذج الكبيرة المحلية إلى 130 ، وهو أعلى من 114 في الولايات المتحدة ، ونجح في تحقيق تجاوز الزاوية ، والخرافات والأساطير المختلفة لا تكفي تقريبا لشركات التكنولوجيا المحلية لأخذ الأسماء.[12] 。
بالإضافة إلى الصين والولايات المتحدة ، حقق عدد من الدول الأكثر ثراء في البداية "دولة واحدة ، نموذج واحد:* * بالإضافة إلى اليابان والإمارات العربية المتحدة ، هناك أيضا نموذج كبير بقيادة الحكومة الهندية Bhashini ، وشركة الإنترنت الكورية الجنوبية Naver's HyperClova X وما إلى ذلك. **
يبدو أن المعركة أمامنا قد عادت إلى عصر ريادة الإنترنت ، حيث تم قصف الفقاعات و "قدرات الأوراق النقدية".
كما ذكرنا سابقا ، يحول Transformer النماذج الكبيرة إلى مشاكل هندسية بحتة ، طالما أن شخصا ما لديه المال وبطاقات الرسومات ، يتم فقد الباقي على المعلمات. ومع ذلك ، على الرغم من أنه ليس من الصعب الحصول على تذكرة الدخول ، إلا أن هذا لا يعني أن كل شخص لديه الفرصة ليصبح أفضل التقنيات المتاحة في عصر الذكاء الاصطناعي.
"حرب الحيوانات" المذكورة في البداية هي حالة نموذجية: على الرغم من فوز فالكون على اللاما في الترتيب ، إلا أنه من الصعب تحديد مدى تأثيرها على ميتا. **
كما نعلم جميعا ، فإن الشركات مفتوحة المصدر نتائج البحث العلمي الخاصة بها ، ليس فقط لمشاركة رفاهية العلوم والتكنولوجيا مع الجمهور ، ولكن أيضا لتعبئة حكمة الناس. مع استمرار أساتذة الجامعات والمؤسسات البحثية والشركات الصغيرة والمتوسطة في استخدام اللاما وتحسينها، يمكن ل Meta تطبيق هذه النتائج على منتجاتها الخاصة.
** بالنسبة لنموذج المصدر المفتوح ، فإن مجتمع المطورين النشط هو كفاءته الأساسية. **
في وقت مبكر من عام 2015 ، عندما تم إنشاء مختبر الذكاء الاصطناعي ، حددت Meta النغمة الرئيسية للمصدر المفتوح. حقق زوكربيرج أيضا ثروته في مجال وسائل التواصل الاجتماعي ، وهو على دراية جيدة بمسألة "القيام بعمل جيد في العلاقات العامة".
على سبيل المثال، في أكتوبر، أطلقت ميتا حملة "حافز الذكاء الاصطناعي لمنشئي المحتوى": ستتاح للمطورين الذين يستخدمون اللاما 2 لحل المشكلات الاجتماعية مثل التعليم والبيئة الفرصة لتلقي تمويل بقيمة 500,000 دولار.
اليوم ، سلسلة اللاما من Meta هي ريشة LLM مفتوحة المصدر.
اعتبارا من أوائل أكتوبر ، يعتمد ما مجموعه 8 من أفضل 10 قوائم LLM مفتوحة المصدر في Hugging face على Llama 2 وتستخدم ترخيصها مفتوح المصدر. على وجه المعانقة وحده ، هناك أكثر من 1500 LLMs باستخدام بروتوكول Llama 2 مفتوح المصدر[13] 。
بالطبع ، لا بأس من تحسين الأداء مثل Falcon ، ولكن حتى يومنا هذا ، لا تزال معظم LLMs في السوق تعاني من فجوة أداء واضحة مع GPT-4.
على سبيل المثال ، في اليوم الآخر ، تصدرت GPT-4 اختبار AgentBench بدرجة 4.41. تم إطلاق معيار AgentBench بشكل مشترك من قبل جامعة تسينغهوا وجامعة ولاية أوهايو وجامعة كاليفورنيا ، بيركلي ، لتقييم قدرة LLM على التفكير والقدرة على اتخاذ القرار في بيئة توليد مفتوحة متعددة الأبعاد ، بما في ذلك المهام في 8 بيئات مختلفة مثل نظام التشغيل وقاعدة البيانات والرسم البياني المعرفي ومعركة البطاقات.
أظهرت نتائج الاختبار أن كلود ، الذي احتل المركز الثاني ، حصل على 2.77 نقطة فقط ، وكانت الفجوة لا تزال واضحة. أما بالنسبة لتلك LLMs الضخمة مفتوحة المصدر ، فإن درجات اختبارهم تحوم حول نقطة واحدة ، أقل من 1/4 من GPT-4[14] 。
كما تعلمون ، تم إصدار GPT-4 في مارس من هذا العام ، والذي لا يزال النتيجة بعد أن لحق أقرانهم العالميون بالركب لأكثر من نصف عام. ما يسبب هذه الفجوة هو الخبرة المتراكمة من قبل فريق علماء OpenAI مع "كثافة ذكاء" عالية وماجستير في البحث طويل الأجل ، لذلك يمكن أن يكون دائما في المقدمة.
بمعنى آخر ، القدرة الأساسية للنموذج الكبير ليست معلمة ، ولكن بناء البيئة (المصدر المفتوح) أو القدرة على التفكير الخالص (المصدر المغلق). **
عندما يصبح مجتمع المصادر المفتوحة أكثر نشاطا ، قد يتقارب أداء LLMs لأنهم جميعا يستخدمون معماريات نماذج مماثلة ومجموعات بيانات مماثلة.
لغز آخر أكثر بديهية: بصرف النظر عن Midjourney ، لا يبدو أن أي نموذج كبير يكسب المال.
مرساة القيمة
في أغسطس من هذا العام ، جذبت مقالة غريبة بعنوان "OpenAI قد تفلس بحلول نهاية عام 2024" الكثير من الاهتمام[16] 。 يمكن تلخيص الاتجاه الرئيسي للمقال في جملة واحدة تقريبا: أموال OpenAI المحترقة سريعة جدا. **
ذكر المقال أنه منذ تطوير ChatGPT ، تتوسع خسائر OpenAI بسرعة ، حيث خسرت حوالي 540 مليون دولار في عام 2022 وحده ، ولا يمكنها سوى انتظار دفع مستثمري Microsoft.
على الرغم من أن عنوان المقال مثير ، إلا أنه يخبرنا أيضا بالوضع الحالي للعديد من مزودي النماذج الكبار: ** هناك اختلال خطير في التوازن بين التكلفة والإيرادات. **
التكلفة مرتفعة للغاية ، مما يؤدي إلى الاعتماد الحالي على الذكاء الاصطناعي لكسب الكثير من المال فقط NVIDIA ، على الأكثر إضافة Broadcom.
وفقا لشركة الاستشارات Omdia ، باعت Nvidia أكثر من 300000 وحدة H100 في الربع الثاني من هذا العام. هذه شريحة الذكاء الاصطناعي ، وكفاءة التدريب الذكاء الاصطناعي عالية للغاية ، وشركات التكنولوجيا ومؤسسات البحث العلمي في جميع أنحاء العالم تقتاز. إذا تم تكديس 300000 طائرة H100 المباعة فوق بعضها البعض ، فستزن ما يعادل 4.5 طائرة بوينج 747.[18] 。
انطلق أداء Nvidia أيضا ، حيث ارتفع بنسبة 854٪ على أساس سنوي ، الأمر الذي صدم فك وول ستريت ذات مرة. بالمناسبة ، تم التكهن بالسعر الحالي ل H100 في سوق السلع المستعملة إلى 40,000-50,000 دولار ، لكن تكلفته المادية تبلغ حوالي 3,000 دولار فقط.
أصبحت التكلفة العالية لقوة الحوسبة مقاومة لتطوير الصناعة إلى حد ما. أجرت سيكويا كابيتال حسابا: ** من المتوقع أن تنفق شركات التكنولوجيا العالمية 200 مليار دولار سنويا على بناء البنية التحتية ذات النماذج الكبيرة. في المقابل، يمكن للنماذج الكبيرة أن تولد ما يصل إلى 75 مليار دولار فقط في السنة، مع وجود فجوة لا تقل عن 125 مليار دولار.[17] 。 **
بالإضافة إلى ذلك ، مع استثناءات قليلة مثل Midjourney ، لم تكتشف معظم شركات البرمجيات بعد كيفية كسب المال بعد دفع تكاليف باهظة. على وجه الخصوص ، تعثر الشقيقان الكبيران الرائدان في الصناعة ، Microsoft و Adobe ، قليلا.
تعاونت Microsoft و OpenAI لتطوير أداة إنشاء التعليمات البرمجية الذكاء الاصطناعي ، GitHub Copilot ، والتي تتقاضى 10 دولارات شهريا ، ولكن نظرا لتكلفة المرافق ، تخسر Microsoft 20 دولارا ، ويمكن للمستخدمين الثقيل حتى جعل Microsoft تدفع 80 دولارا في الشهر. بناء على هذه التكهنات ، فإن Microsoft 365 Copilot بقيمة 30 دولارا ليست خسارة.
من قبيل الصدفة ، أطلقت Adobe ، التي أصدرت للتو أداة Firefly الذكاء الاصطناعي ، بسرعة نظام نقاط دعم لمنع المستخدمين من استخدامه بكثافة والتسبب في خسارة الشركة للمال. بمجرد أن يستخدم المستخدم أكثر من الاعتمادات المخصصة كل شهر، تقوم Adobe بإبطاء الخدمة.
يجب أن تعلم أن Microsoft و Adobe هما بالفعل عمالقة برامج مع سيناريوهات عمل واضحة وعدد كبير من المستخدمين الذين يدفعون الجاهزين. معظم المعلمات مكدسة في السماء ، وأكبر سيناريو للتطبيق هو الدردشة.
لا يمكن إنكار أنه بدون ظهور OpenAI و ChatGPT ، ربما لم تكن هذه الثورة الذكاء الاصطناعي قد حدثت على الإطلاق. ولكن في الوقت الحاضر ، قد تكون قيمة تدريب النماذج الكبيرة علامة استفهام.
علاوة على ذلك ، مع اشتداد المنافسة على التجانس ووجود المزيد والمزيد من النماذج مفتوحة المصدر في السوق ، قد يكون هناك مجال أقل للبائعين البسطاء ذوي النماذج الكبيرة.
شعبية iPhone 4 ليست بسبب معالج 45nm A4 ، ولكن لأنه يمكن أن يلعب Plants vs. Zombies و Angry Birds.