في عام 2012 ، وقع حدثان رئيسيان في دائرة الذكاء الاصطناعي. بالترتيب الزمني ، كان أولهما إطلاق Google Brain ، وهو فريق قديم من Google ، باعتباره "العمل الأول" - شبكة التعلم العميق "Google Cat "يمكنه التعرف على القطط ، مع التعرف على 74.8٪. معدل الدقة هو 0.8٪ أعلى من 74٪ من الخوارزمية الفائزة لمسابقة التعرف على الصور المعروفة ImageNet العام السابق.
لكن لحظات غوغل البارزة لم تدم سوى بضعة أشهر. في كانون الأول (ديسمبر) 2012 ، تم إطلاق الفائز بأحدث شبكة ImageNet. قام سيد التعلم العميق هينتون وتلاميذه بإحضار الشبكة العصبية التلافيفية AlexNet ، والتي رفعت معدل دقة التعرف إلى 84٪ ، وبالتالي بدأت ثورة الذكاء الاصطناعي في المستقبل. العقد دفن Google Cat في غبار التاريخ.
هينتون مع اثنين من الطلاب ، 2012
لم يكن نموذج ImageNet نفسه هو الذي صدم الصناعة. هذه الشبكة العصبية ، التي تتطلب 14 مليون صورة وما مجموعه 262 بيتافلوب من عمليات الفاصلة العائمة ، استخدمت أربعة فقط من بطاقات NVIDIA Geforce GTX 580 خلال أسبوع من التدريب. كمرجع ، استخدم Google Cat 10 ملايين صورة و 16000 وحدة معالجة مركزية و 1000 جهاز كمبيوتر [1] 。
يُشاع أن Google شاركت أيضًا سراً في المسابقة هذا العام ، وانعكست الصدمة التي تلقتها بشكل مباشر في الإجراء التالي: أنفقت Google 44 مليون دولار للحصول على فريق Hinton ، وقدمت على الفور طلبًا مع Nvidia لعدد كبير من وحدات معالجة الرسومات للذكاء الاصطناعي. التدريب ، وفي نفس الوقت "السلع الكاسحة" هم أيضًا عمالقة مثل Microsoft و Facebook.
** أصبحت Nvidia هي الرابح الأكبر ، وارتفع سعر سهمها بحد أقصى 121 مرة في السنوات العشر القادمة. ولدت إمبراطورية. **
لكن فوق الإمبراطورية ، تجمعت سحبتان مظلمتان تدريجياً. قامت Google ، التي اشترت سلعًا من Nvidia في ذلك الوقت ، بظهور مذهل لأول مرة مع AlphaGo بعد ثلاث سنوات ، وهزمت البطل البشري Ke Jie في عام 2017. اكتشف الأشخاص المتحمسون أن الشريحة التي تقود AlphaGo لم تعد GPU من Nvidia ، بل شريحة TPU المطورة ذاتيًا من Google.
بعد ثلاث سنوات ، تكرر سيناريو مماثل. تيسلا ، التي اعتبرها Huang Renxun عميلًا قياسيًا ، ودعت أيضًا Nvidia GPU. أطلقت أولاً شريحة مركبة FSD مع NPU كأساس ، ثم أخرجت شريحة D1 المستخدمة لبناء مجموعات تدريب AI. فقد Li اثنين من أهم العملاء في عصر الذكاء الاصطناعي.
بحلول عام 2022 ، ستدخل دورة تكنولوجيا المعلومات العالمية مرحلة هبوطية. ستخفض شركات الحوسبة السحابية الكبرى ميزانيات مشتريات GPU لمراكز البيانات واحدة تلو الأخرى. وسوف يهدأ مد تعدين blockchain تدريجيًا. بالإضافة إلى ذلك ، فإن حظر الولايات المتحدة للرقاقات على الصين سيجعل من المستحيل بيع A100 / H100 للصين.بالنسبة لبطاقات الرسومات المتطورة ، ارتفع مخزون Nvidia ، وانخفض سعر سهمها بمقدار 2/3 من ذروته.
في نهاية عام 2022 ، وُلد ChatGPT ، وتم نهب وحدات معالجة الرسومات ، كوقود لـ "الكيمياء" على نطاق واسع. نشرت المعلومات الأخبار: * * مايكروسوفت ، البادئ في هذه الجولة من موجة الذكاء الاصطناعي ، تطور سرًا شريحة الذكاء الاصطناعي الخاصة بها ** [2] 。
تم تصنيع هذه الشريحة التي تسمى أثينا بواسطة TSMC وتستخدم عملية متقدمة 5 نانومتر.عدد فريق البحث والتطوير التابع لشركة Microsoft يقترب من 300. من الواضح أن الهدف من هذه الشريحة هو استبدال A100 / H100 باهظ الثمن ، وتوفير محرك طاقة حوسبة لـ OpenAI ، وفي النهاية ستنتزع كعكة Nvidia من خلال خدمة Azure السحابية من Microsoft.
تعد Microsoft حاليًا أكبر مشترٍ لـ Nvidia's H100 ، وقد ترددت شائعات بأنها "ستختتم" الطاقة الإنتاجية للعام بأكمله لـ H100. إشارة التفكك من Microsoft هي بلا شك صاعقة من اللون الأزرق. يجب أن تعلم أنه حتى عندما كانت Intel في أحلك حالاتها ، لم يجرؤ أي من عملائها على صنع شرائح وحدة المعالجة المركزية الخاصة بهم (باستثناء Apple ، التي لا تبيعها خارجيًا) .
على الرغم من أن Nvidia تحتكر حاليًا 90٪ من السوق لقوة حوسبة الذكاء الاصطناعي باستخدام GPU + NVlink + CUDA ، فقد ظهر الكراك الأول في ** الإمبراطورية. **
** 01 ، GPU الذي لم يولد للذكاء الاصطناعي **
منذ البداية ، لم يتم تصنيع وحدات معالجة الرسومات للذكاء الاصطناعي.
في أكتوبر 1999 ، أصدرت Nvidia GeForce 256 ، وهي شريحة معالجة رسومات تعتمد على عملية TSMC 220 نانومتر ودمج 23 مليون ترانزستور. استخرجت Nvidia الأحرف الأولى "GPU" من وحدة معالجة الرسومات ، وأطلق عليها اسم GeForce 256 ** "أول وحدة معالجة رسومات في العالم" اليوم.
في هذا الوقت ، ظل الذكاء الاصطناعي صامتًا لسنوات عديدة ، لا سيما في مجال الشبكات العصبية العميقة.لا يزال الفائزون بجائزة تورنج المستقبلية مثل جيفري هينتون ويان ليكون يجلسون على مقاعد البدلاء الأكاديمية ، ولا يفكرون أبدًا في حياتهم المهنية. سيتم تغييره بالكامل بواسطة وحدة معالجة الرسومات (GPU) التي تم تطويرها في الأصل للاعبين.
** لمن ولد GPU؟ صورة**. بتعبير أدق ، تم إنشاؤه لتحرير وحدة المعالجة المركزية من شد عرض الرسومات. يتمثل المبدأ الأساسي لعرض الصور في تقسيم صورة كل إطار إلى وحدات بكسل فردية ، ثم إجراء عمليات عرض متعددة مثل معالجة الرأس ، والمعالجة الأولية ، والتنقيط ، ومعالجة الأجزاء ، وعملية البكسل ، وما إلى ذلك ، وعرضها أخيرًا على الشاشة.
مصدر عملية المعالجة من البكسل إلى الصور: خلاصة الرسومات
** لماذا تقول هذا عمل شاق؟ حل مسألة حسابية بسيطة: **
بافتراض وجود 300000 بكسل على الشاشة ، محسوبة بمعدل إطارات 60 إطارًا في الثانية ، يجب إكمال 18 مليون عرض في الثانية ، في كل مرة بما في ذلك الخطوات الخمس المذكورة أعلاه ، والتي تتوافق مع خمسة تعليمات ، أي تحتاج وحدة المعالجة المركزية إلى أكمل 90 مليون تعليمات في الثانية لتحقيق عرض تقديمي للشاشة لمدة ثانية واحدة كمرجع ، كانت وحدة المعالجة المركزية عالية الأداء من Intel في ذلك الوقت 60 مليون عملية حسابية فقط في الثانية.
هذا ليس بسبب ضعف وحدة المعالجة المركزية ، ولكن لأنها جيدة في جدولة الخيط ، لذلك يتم توفير مساحة أكبر لوحدة التحكم ووحدة التخزين ، وتشغل وحدة الحوسبة المستخدمة في الحساب 20٪ فقط من المساحة. على العكس من ذلك ، فإن وحدة معالجة الرسومات (GPU) تمثل أكثر من 80٪ من المساحة هي وحدة الحوسبة ، والتي توفر إمكانات حوسبة متوازية فائقة ، وهي أكثر ملاءمة لعمل عرض الصور بخطوة ثابتة ومتكررة ومملة.
الهيكل الداخلي لوحدة المعالجة المركزية ووحدة معالجة الرسومات ، الجزء الأخضر هو وحدة الحوسبة
لم يكن الأمر كذلك إلا بعد بضع سنوات حتى أدرك بعض علماء الذكاء الاصطناعي أن وحدات معالجة الرسومات بهذه الخصائص مناسبة أيضًا للتدريب على التعلم العميق. تم اقتراح العديد من معماريات الشبكات العصبية العميقة الكلاسيكية في وقت مبكر من النصف الثاني من القرن العشرين ، ولكن نظرًا لنقص الأجهزة الحاسوبية لتدريبها ، يمكن أن تكون العديد من الدراسات "على الورق" فقط ، وقد توقف التطور لفترة طويلة وقت.
طلقة نارية في أكتوبر 1999 جلبت وحدات معالجة الرسومات إلى الذكاء الاصطناعي. تتمثل عملية التدريب للتعلم العميق في إجراء عمليات هرمية على كل قيمة إدخال وفقًا لوظائف ومعلمات كل طبقة من طبقات الشبكة العصبية ، وأخيراً الحصول على قيمة مخرجات ، الأمر الذي يتطلب عددًا كبيرًا من عمليات المصفوفة تمامًا مثل عرض الرسومات - هذا يحدث أن يكون أفضل ما في GPU.
بنية شبكة عصبية عميقة نموذجية ؛ المصدر: نحو علم البيانات
ومع ذلك ، تُظهر الصورة أنه على الرغم من أن كمية معالجة البيانات ضخمة ، إلا أن معظم الخطوات ثابتة. بمجرد تطبيق الشبكة العصبية العميقة على مجال صنع القرار ، فإنها ستشمل مواقف معقدة مثل الهياكل الفرعية ، ومعلمات كل طبقة تحتاج إلى التدريب على أساس البيانات الضخمة ، الإيجابية والسلبية. استمر في المراجعة. وضعت هذه الاختلافات مخاطر خفية لتكيف وحدات معالجة الرسومات مع الذكاء الاصطناعي في المستقبل.
اليوم ، يعد المدير العام لشركة Amazon AI / ML ، كومار تشيلابيلا ، أول عالم يأكل سلطعون GPU. في عام 2006 ، استخدم بطاقة الرسومات GeForce 7800 من Nvidia لتنفيذ الشبكة العصبية التلافيفية (CNN) لأول مرة ، ووجد أنها كانت أسرع 4 مرات من استخدام وحدة المعالجة المركزية. هذه هي أقدم محاولة معروفة لاستخدام وحدات معالجة الرسومات للتعلم العميق [3] 。
كومار شيلابيلا ونفيديا جيفورس 7800
لم يجذب عمل Kumar اهتمامًا واسعًا ، ويرجع ذلك أساسًا إلى التعقيد الكبير في البرمجة القائمة على وحدة معالجة الرسومات. ولكن في هذا الوقت فقط ، أطلقت Nvidia منصة CUDA في عام 2007 ، مما قلل بشكل كبير من صعوبة استخدام المطورين لوحدة معالجة الرسومات لتدريب الشبكات العصبية العميقة ، مما جعل المؤمنين بالتعلم العميق يرون المزيد من الأمل.
ثم في عام 2009 ، نشر وو إندا من جامعة ستانفورد وآخرون ورقة بحثية متقدمة [6] تعمل وحدة معالجة الرسوميات GPU على تقصير وقت تدريب الذكاء الاصطناعي من أسابيع إلى ساعات بحكم أكثر من 70 مرة من قوة الحوسبة لوحدة المعالجة المركزية. تشير هذه الورقة إلى الطريق لتطبيق أجهزة الذكاء الاصطناعي. لقد سرَّعت وحدة معالجة الرسومات (GPU) بشكل كبير عملية الذكاء الاصطناعي من الورق إلى الواقع.
أندرو نغ (吴 恩达)
الجدير بالذكر أن Wu Enda انضم إلى Google Brain عام 2011 وهو أحد رواد مشروع Google Cat المذكور في البداية. سبب فشل Google Brain في استخدام GPU في النهاية غير معروف للأجانب ، ولكن قبل وبعد مغادرة Wu Enda لشركة Google للانضمام إلى Baidu ، كانت هناك شائعات بأن ذلك يرجع إلى أن موقف Google تجاه GPU كان غير واضح.
** بعد استكشاف عدد لا يحصى من الأشخاص ، تم تسليم العصا أخيرًا إلى أستاذ التعلم العميق هينتون ، وقد أشار الوقت بالفعل إلى عام 2012. **
في عام 2012 ، صمم هينتون وطالبان ، هما Alex Krizhevsky و Ilya Sutskeverz ، شبكة عصبية تلافيفية عميقة ، AlexNet ، وخططوا للمشاركة في مسابقة ImageNet هذا العام. لكن المشكلة تكمن في أن تدريب AlexNet باستخدام وحدة المعالجة المركزية قد يستغرق عدة أشهر ، لذلك وجهوا انتباههم إلى وحدة معالجة الرسومات.
إن وحدة معالجة الرسوميات GPU هذه ، التي تعتبر حاسمة في تاريخ تطوير التعلم العميق ، هي "بطاقة رسومات القنبلة النووية" الشهيرة GTX 580. باعتبارها المنتج الرئيسي لأحدث هندسة Fermi من Nvidia ، فإن GTX 580 محشو بـ 512 نواة CUDA (108 في الجيل السابق). وبينما تقفز قوة الحوسبة ، جعلت مشاكل استهلاك الطاقة وتوليد الحرارة المبالغ فيها من Nvidia يطلق عليها اسم "مصنع القنبلة النووية ".
الزرنيخ أ ، عسل ب. بالمقارنة مع "النعومة" عند تدريب الشبكات العصبية باستخدام وحدات معالجة الرسومات ، فإن مشكلة تبديد الحرارة لا تُذكر. أكمل فريق Hinton البرمجة بنجاح باستخدام منصة CUDA الخاصة بـ Nvidia. وبدعم من بطاقتي رسومات GTX 580 ، استغرق تدريب 14 مليون صورة أسبوعًا واحدًا فقط ، وفازت AlexNet بالبطولة بنجاح.
** نظرًا لتأثير مسابقة ImageNet وهينتون نفسه ، أدرك جميع علماء الذكاء الاصطناعي أهمية وحدة معالجة الرسومات في لحظة. **
بعد ذلك بعامين ، اتخذت Google نموذج GoogLeNet للمشاركة في ImageNet وفازت بالبطولة بمعدل دقة 93٪ باستخدام وحدات معالجة الرسومات NVIDIA. وفي هذا العام ، ارتفع عدد وحدات معالجة الرسومات المستخدمة من قبل جميع الفرق المشاركة إلى 110. خارج المسابقات ، أصبح GPU "استهلاكًا لا بد منه" للتعلم العميق ، حيث أرسل Huang Renxun دفقًا ثابتًا من الطلبات.
سمح ذلك لشركة Nvidia بالتخلص من ظل الفشل الذريع في سوق الهواتف المحمولة. بعد إصدار iPhone في عام 2007 ، توسعت كعكة رقائق الهاتف الذكي بسرعة. حاولت Nvidia أيضًا الحصول على قطعة من الفطيرة من Samsung و Qualcomm و MediaTek. فشلت مشكلة تبديد الحرارة. في النهاية ، كان مجال الذكاء الاصطناعي الذي أنقذته وحدة معالجة الرسومات ، هو الذي أعطى Nvidia منحنى نمو ثانٍ.
ولكن بعد كل شيء ، فإن وحدة معالجة الرسوميات (GPU) ليست وليدة لتدريب الشبكات العصبية ، فكلما تطور الذكاء الاصطناعي بشكل أسرع ، كلما تم الكشف عن هذه المشاكل.
على سبيل المثال ، على الرغم من أن وحدة معالجة الرسومات تختلف اختلافًا كبيرًا عن وحدة المعالجة المركزية ، إلا أن كلاهما يتبع بشكل أساسي بنية von Neumann ، ويتم فصل التخزين والتشغيل. عنق الزجاجة الناتج عن هذا الفصل ، بعد كل شيء ، خطوات معالجة الصور ثابتة نسبيًا ، ويمكن حلها من خلال المزيد من العمليات المتوازية ، لكنها قاتلة جدًا في الشبكة العصبية التي تحتوي على العديد من الهياكل الفرعية.
في كل مرة تضيف فيها الشبكة العصبية طبقة أو فرعًا ، فإنها تحتاج إلى زيادة وصول الذاكرة لتخزين البيانات من أجل التراجع ، والوقت الذي يقضيه في ذلك أمر لا مفر منه. خاصة في عصر النماذج الكبيرة ، فكلما كان النموذج أكبر ، زادت الحاجة إلى إجراء المزيد من عمليات الوصول إلى الذاكرة - الطاقة المستهلكة في الوصول إلى الذاكرة أعلى بعدة مرات من تلك الموجودة في الحوسبة.
تشبيه بسيط هو أن وحدة معالجة الرسومات (GPU) هي رجل عضلي (مع العديد من وحدات الحوسبة) ، ولكن لكل تعليمات يتم تلقيها ، يجب عليه الرجوع وإلقاء نظرة على دليل التعليمات (الذاكرة). أخيرًا ، مع زيادة حجم النموذج وتعقيده ، الرجل إن وقت العمل الحقيقي محدود للغاية ، وبدلاً من ذلك ، سئمت جدًا من التقليب بين الكتيبات التي أتناولها بالرغوة في الفم.
تعد مشكلات الذاكرة مجرد واحدة من "المضايقات" العديدة لوحدات معالجة الرسومات في تطبيقات الشبكة العصبية العميقة. كانت Nvidia على دراية بهذه المشكلات منذ البداية ، وسرعان ما بدأت في "التعديل السحري" لوحدة معالجة الرسومات لجعلها أكثر ملاءمة لسيناريوهات تطبيقات الذكاء الاصطناعي ؛ كما يتسلل لاعبو الذكاء الاصطناعي الذين يدركون تمامًا الحريق ، ويحاولون استخدامها عيوب GPU لفتح زاوية إمبراطورية Huang Renxun.
** تبدأ معركة هجومية ودفاعية. **
** 02 ، المعركة المظلمة بين Google و Nvidia **
في مواجهة الطلب الهائل على قوة حوسبة الذكاء الاصطناعي والعيوب الخلقية لوحدة معالجة الرسومات ، قدم Huang Renxun مجموعتين من الحلول للعمل جنبًا إلى جنب.
** المجموعة الأولى هي الاستمرار في تكديس قوة الحوسبة بعنف على طول مسار "الجنية القديمة لقوة الحوسبة لها قوة سحرية لا حدود لها". ** في عصر يتضاعف فيه الطلب على قوة الحوسبة بالذكاء الاصطناعي كل 3.5 شهرًا ، فإن قوة الحوسبة هي الجزرة المعلقة أمام أعين شركات الذكاء الاصطناعي ، مما يجعلهم يوبخون Huang Renxun لمهاراته الرائعة في السيف أثناء انتزاعها مثل الكلب. كل قدرة Nvidia.
** المجموعة الثانية هي حل عدم التطابق تدريجيًا بين سيناريوهات وحدة معالجة الرسومات والذكاء الاصطناعي من خلال "الابتكار المحسن". ** تشمل هذه المشكلات على سبيل المثال لا الحصر استهلاك الطاقة ، وجدران الذاكرة ، واختناقات النطاق الترددي ، والحسابات منخفضة الدقة ، والتوصيلات عالية السرعة ، وتحسينات النماذج المحددة ... منذ عام 2012 ، قامت Nvidia فجأة بتسريع سرعة تحديثات البنية.
بعد أن أصدرت Nvidia CUDA ، استخدمت بنية موحدة لدعم السيناريوهين الرئيسيين للرسومات والحوسبة. ظهر الجيل الأول من الهندسة المعمارية لأول مرة في عام 2007 وكان اسمه Tesla. لم يكن هذا بسبب رغبة Huang Renxun في إظهار تفضيله لماسك ، ولكن لتكريم الفيزيائي نيكولا تيسلا (الجيل الأول كان عمارة كوري).
منذ ذلك الحين ، تم تسمية كل جيل من بنية NVIDIA GPU على اسم علماء مشهورين ، كما هو موضح في الشكل أدناه. في كل تكرار للهندسة المعمارية ، تواصل Nvidia تكديس القوة الحاسوبية ، مع التحسن دون "قطع العضلات والعظام".
على سبيل المثال ، كان لمعمارية الجيل الثاني من Fermi في عام 2011 عيوب تبديد الحرارة ، بينما حولت بنية الجيل الثالث Kepler في عام 2012 فكرة التصميم الشاملة من الأداء العالي إلى الكفاءة في استهلاك الطاقة لتحسين تبديد الحرارة ؛ ومن أجل حل المشاكل المذكورة أعلاه بالنسبة لمشكلة "الحمقى العضليين" ، أضاف الجيل الرابع من هندسة ماكسويل في عام 2014 المزيد من دوائر التحكم المنطقية في الداخل لتسهيل التحكم الدقيق.
من أجل التكيف مع مشهد الذكاء الاصطناعي ، أصبحت وحدة معالجة الرسومات "المعدلة بطريقة سحرية" من Nvidia تشبه إلى حد ما وحدة المعالجة المركزية إلى حد ما - تمامًا مثل قدرة الجدولة الممتازة لوحدة المعالجة المركزية على حساب قوة الحوسبة ، يتعين على Nvidia تقييد نفسها تكديس النوى الحاسوبية. ومع ذلك ، بغض النظر عن كيفية تغيير وحدة معالجة الرسومات مع عبء التنوع ، سيكون من الصعب مطابقة الشريحة المخصصة في سيناريو الذكاء الاصطناعي.
** أول من هاجم Nvidia كان Google ، الذي كان أول من اشترى وحدات معالجة الرسومات على نطاق واسع لحوسبة الذكاء الاصطناعي. **
بعد استعراض عضلاتها مع GoogLeNet في عام 2014 ، لم تعد Google تشارك علنًا في مسابقة التعرف على الأجهزة ، وتآمرت لتطوير رقائق خاصة بالذكاء الاصطناعي. في عام 2016 ، احتلت Google زمام المبادرة مع AlphaGo. بعد فوزها في Li Shishi ، أطلقت على الفور شريحة AI المطورة ذاتيًا TPU ، والتي فاجأت Nvidia بهندسة جديدة "ولدت من أجل AI".
TPU هو اختصار لوحدة معالجة Tensor ، والاسم الصيني هو "وحدة معالجة الموتر". إذا كان "الإصلاح السحري" لوحدة معالجة الرسومات من Nvidia هو هدم الجدار الشرقي لتعويض الجدار الغربي ، فإن TPU سيقلل بشكل أساسي من الطلب على التخزين والاتصال ، ونقل مساحة الشريحة إلى الحساب إلى أقصى حد وعلى وجه التحديد ، فإن العظماء تعنيان:
** الأول هو التكنولوجيا الكمية. ** عادةً ما تستخدم حسابات الكمبيوتر الحديثة بيانات عالية الدقة ، والتي تستهلك قدرًا كبيرًا من الذاكرة ، ولكن في الواقع ، لا تتطلب معظم حسابات الشبكة العصبية الدقة للوصول إلى حسابات النقطة العائمة 32 بت أو 16 بت. جوهر التكميم التكنولوجيا هي أساسًا دمج أرقام 32 بت / 16 بت تقريبًا إلى أعداد صحيحة 8 بت ، مما يحافظ على الدقة المناسبة ويقلل من متطلبات التخزين.
** الثانية هي المصفوفة الانقباضية ، ** وهي مصفوفة ضرب المصفوفة ، وهي واحدة من أهم الفروق بين TPU و GPU. ببساطة ، تتطلب عمليات الشبكة العصبية عددًا كبيرًا من عمليات المصفوفة.يمكن لوحدة معالجة الرسومات فقط تفكيك حسابات المصفوفة في حسابات متجهية متعددة خطوة بخطوة. في كل مرة يتم فيها إكمال مجموعة ، تحتاج إلى الوصول إلى الذاكرة وحفظ نتائج هذه الطبقة حتى يتم الانتهاء من جميع حسابات المتجهات. ، ثم قم بدمج نتائج كل طبقة للحصول على قيمة الإخراج.
في TPU ، ترتبط آلاف وحدات الحوسبة بشكل مباشر لتشكيل مصفوفة ضرب المصفوفة. بصفتها جوهر الحوسبة ، يمكن إجراء حسابات المصفوفة مباشرة. باستثناء تحميل البيانات والوظائف في البداية ، ليست هناك حاجة للوصول إلى وحدات التخزين ، والتي يقلل بشكل كبير من الوصول ، حيث يعمل التردد على تسريع سرعة حساب TPU بشكل كبير ، كما يتم تقليل استهلاك الطاقة وشغل المساحة المادية بشكل كبير.
مقارنة أوقات الوصول إلى وحدة المعالجة المركزية ووحدة معالجة الرسومات وذاكرة TPU (الذاكرة)
يعتبر TPU من Google سريعًا جدًا ، ولم يستغرق الأمر سوى ** 15 شهرًا ** من التصميم والتحقق والإنتاج الضخم إلى النشر النهائي في مركز البيانات الخاص به. بعد الاختبار ، تفوق أداء واستهلاك طاقة TPU في سيناريوهات CNN و LSTM و MLP وغيرها من سيناريوهات الذكاء الاصطناعي إلى حد كبير على أداء وحدة معالجة الرسومات الخاصة بشركة Nvidia في نفس الفترة. ** تم الضغط على Nvidia دفعة واحدة. **
إن التعرض للطعن من قبل عميل كبير أمر غير مريح ، لكن Nvidia لن تقف وتتعرض للضرب ، وقد بدأت لعبة شد الحبل.
بعد خمسة أشهر من إطلاق Google لجهاز TPU ، قدمت Nvidia أيضًا بنية Pascal لعملية 16 نانومتر. من ناحية أخرى ، تقدم الهندسة المعمارية الجديدة تقنية التوصيل البيني عالية السرعة ثنائية الاتجاه NVLink الشهيرة ، والتي تعمل على تحسين عرض النطاق الترددي للاتصال بشكل كبير ؛ ومن ناحية أخرى ، فإنها تحاكي تقنية تكميم TPU ، وتحسن كفاءة الحوسبة للشبكة العصبية عن طريق تقليل دقة البيانات.
في عام 2017 ، أطلقت Nvidia Volta ، وهي أول بنية مصممة خصيصًا للتعلم العميق ، والتي قدمت TensorCore لأول مرة ، والتي تُستخدم خصيصًا لعمليات المصفوفة - على الرغم من أن صفيف الضرب 4 × 4 هو نفسه صفيف نبضات TPU 256 × 256 . النسبة رديئة بعض الشيء ، لكنها أيضًا حل وسط تم إجراؤه على أساس الحفاظ على المرونة والتنوع.
تم تنفيذ عملية مصفوفة 4x4 بواسطة TensorCore في Nvidia V100
أعلن المسؤولون التنفيذيون في NVIDIA للعملاء: ** "Volta ليست ترقية لباسكال ، ولكنها بنية جديدة تمامًا." **
تتسابق Google أيضًا مع الزمن ، فبعد عام 2016 ، تم تحديث TPU لمدة 3 أجيال في غضون خمس سنوات ، حيث أطلقت TPUv2 في عام 2017 ، و TPUv3 في عام 2018 ، و TPUv4 في عام 2021 ، ووضعت البيانات على واجهة Nvidia. [4] : ** TPU v4 أسرع بمقدار 1.2-1.7 مرة من Nvidia's A100 ، مع تقليل استهلاك الطاقة بمقدار 1.3-1.9 مرة. **
لا تبيع Google شرائح TPU للعالم الخارجي ، وفي نفس الوقت تستمر في شراء وحدات معالجة الرسومات من Nvidia بكميات كبيرة ، مما يجعل منافسة شرائح AI بين الاثنين تبقى في "الحرب الباردة" بدلاً من "المنافسة المفتوحة". ولكن بعد كل شيء ، تقوم Google بنشر TPU في نظام الخدمة السحابية الخاص بها لتوفير خدمات طاقة حوسبة AI للعالم الخارجي ، مما يقلل بلا شك من سوق Nvidia المحتمل.
الرئيس التنفيذي لشركة Google Sundar Picha يوضح TPU v4
بينما يتقاتل الاثنان في الظلام ، فإن التقدم في مجال الذكاء الاصطناعي يحرز أيضًا تقدمًا سريعًا. في عام 2017 ، اقترحت Google ** طراز Transformer ** الثوري ، ثم طورت OpenAI GPT-1 استنادًا إلى Transformer. اندلع سباق التسلح في الطرز الكبيرة ، وبدأ الطلب على قوة حوسبة الذكاء الاصطناعي في التسارع الثاني منذ ظهور AlexNet في عام 2012.
بعد إدراك الاتجاه الجديد ، أطلقت Nvidia بنية Hopper في عام 2022 ، حيث قدمت محرك تسريع Transformer على مستوى الأجهزة لأول مرة ، مدعية أنه يمكن أن يزيد من وقت التدريب لنموذج اللغة الكبيرة المستند إلى Transformer بمقدار 9 مرات. استنادًا إلى بنية Hopper ، أطلقت Nvidia "أقوى وحدة معالجة رسومات على السطح" - H100.
H100 هو "وحش الغرز" النهائي من Nvidia. فمن ناحية ، يقدم العديد من تقنيات تحسين الذكاء الاصطناعي ، مثل القياس الكمي وحساب المصفوفة (Tensor Core 4.0) ومحرك تسريع المحولات ؛ من ناحية أخرى ، فهو مليء بنقاط القوة التقليدية لـ Nvidia ، مثل 7296 CUDA Core و 80 جيجابايت من الذاكرة HBM2 وما يصل إلى 900 جيجابايت / ثانية من تقنية الاتصال NVLink 4.0.
حملت Nvidia H100 في متناول اليد وتنفس الصعداء مؤقتًا ، فلا توجد شريحة منتجة بكميات كبيرة في السوق أفضل من H100.
** يعد المنشار السري لشركة Google و Nvidia أيضًا إنجازًا مشتركًا: ** استوردت Nvidia الكثير من التقنيات المبتكرة من Google ، كما استفادت أبحاث Google المتطورة حول الذكاء الاصطناعي بشكل كامل من ابتكار وحدة معالجة الرسومات الخاصة بشركة Nvidia. القوة إلى مستوى يمكن أن يستخدمه نموذج لغة كبير "على رؤوس الأصابع". أولئك الذين هم في دائرة الضوء ، مثل OpenAI ، يقفون أيضًا على أكتاف هذين.
لكن المشاعر تنتمي إلى المشاعر ، والعمل ينتمي إلى العمل. جعلت المعركة الهجومية والدفاعية حول وحدة معالجة الرسومات الصناعة أكثر يقينًا من شيء واحد: ** GPU ليست الحل الأمثل للذكاء الاصطناعي ، ولدى ASICs المخصصة إمكانية كسر احتكار Nvidia. ** تم فتح الشقوق ، ولن يكون جوجل الوحيد الذي يتابع ذوقه.
** أصبحت قوة الحوسبة بشكل خاص هي الطلب الأكثر تأكيدًا في عصر AGI ، ويريد الجميع الجلوس على نفس الطاولة مع NVIDIA عند تناول الطعام. **
** 03 ، صدع يتوسع **
بالإضافة إلى OpenAI ، هناك شركتان خارج الصندوق في هذه الجولة من طفرة الذكاء الاصطناعي. إحداهما هي شركة الرسم AI Midjourney ، التي تجعل قدرتها على التحكم في أنماط الرسم المختلفة عددًا لا يحصى من الفنانين المعتمدين على الكربون خائفين ؛ الأخرى هو Authropic ، ومؤسسه من شركة OpenAI. كان روبوت الحوار كلود يلعب ذهابًا وإيابًا مع ChatGPT.
** لكن لم تشتري أي من هاتين الشركتين وحدات معالجة الرسومات Nvidia لبناء حوسبة فائقة ، لكنها استخدمت خدمات الحوسبة من Google. **
من أجل مواجهة انفجار قوة الحوسبة بالذكاء الاصطناعي ، قامت Google ببناء حاسوب عملاق (TPU v4 Pod) مع 4096 TPU. ترتبط الرقائق مع مفاتيح دوائر ضوئية مطورة ذاتيًا (OCS) ، والتي لا يمكن استخدامها فقط لتدريب LaMDA الخاص بهم يمكن أن توفر نماذج اللغات الكبيرة مثل MUM و PaLM أيضًا خدمات رخيصة وعالية الجودة للشركات الناشئة في مجال الذكاء الاصطناعي.
الحوسبة الفائقة GoogleTPU v4 Pod
هناك أيضًا Tesla الذي يصنع حاسبًا فائقًا بنفسه. بعد إطلاق شريحة FSD المُركبة على السيارة ، عرضت Tesla للعالم الخارجي الكمبيوتر الفائق Dojo ExaPOD الذي تم تصنيعه باستخدام 3000 من رقائق D1 الخاصة به في أغسطس 2021. من بينها ، تم تصنيع شريحة D1 بواسطة TSMC ، باستخدام تقنية 7 نانومتر ، و 3000 شريحة D1 تجعل Dojo مباشرة خامس أكبر كمبيوتر قوة حوسبة في العالم.
** ومع ذلك ، فإن الجمع بين الاثنين لا يمكن مقارنته بالتأثير الذي أحدثته شريحة أثينا المطورة ذاتيًا من Microsoft. **
تعد Microsoft واحدة من أكبر عملاء Nvidia ، حيث اشترت خدمتها السحابية Azure عشرات الآلاف على الأقل من وحدات معالجة الرسومات المتطورة A100 و H100. SwiftKey وغيرها من المنتجات التي تستخدم الذكاء الاصطناعي.
بعد حساب دقيق ، فإن "ضريبة Nvidia" التي يتعين على Microsoft دفعها هي رقم فلكي ، والرقائق المطورة ذاتيًا تكاد تكون حتمية. تمامًا مثلما قام علي بحساب طلب Taobao Tmall المستقبلي على الحوسبة السحابية وقواعد البيانات والتخزين ، ووجد أنه رقم فلكي ، لذلك بدأ بشكل حاسم في دعم Alibaba Cloud ، وأطلق حملة قوية "de-IOE" داخليًا.
** يعد توفير التكلفة جانبًا واحدًا ، والتكامل الرأسي لخلق التمايز هو جانب آخر. ** في عصر الهواتف المحمولة ، تعد وحدة المعالجة المركزية (AP) والذاكرة والشاشة الخاصة بهواتف Samsung المحمولة يتم إنتاجها وبيعها ذاتيًا ، مما يساهم بشكل كبير في هيمنة Samsung العالمية على نظام Android. تقوم Google و Microsoft في صنع النواة أيضًا بإجراء تحسين على مستوى الرقاقة لخدمات السحابة الخاصة بهما لإحداث اختلافات.
لذلك ، على عكس Apple و Samsung ، اللتين لا تبيعان الرقائق للعالم الخارجي ، على الرغم من أن رقائق الذكاء الاصطناعي الخاصة بشركة Google و Microsoft لن يتم بيعها إلى العالم الخارجي ، إلا أنها ستستوعب بعض عملاء Nvidia المحتملين من خلال "خدمات سحابة الطاقة الحاسوبية للذكاء الاصطناعي". و Authropic أمثلة. هناك المزيد من الشركات الصغيرة (خاصة في طبقة تطبيقات الذكاء الاصطناعي) تختار الخدمات السحابية.
** تركيز سوق الحوسبة السحابية العالمية مرتفع للغاية ، حيث تمثل أكبر خمس شركات مصنعة (Amazon AWS و Microsoft Azure و Google Cloud و Alibaba Cloud و IBM) أكثر من 60٪ ، وهم جميعًا يصنعون شرائح الذكاء الاصطناعي الخاصة بهم. من بينها ، تحرز Google أسرع تقدم ، ولدى IBM أقوى الاحتياطيات ، ولمايكروسوفت التأثير الأكبر ، ولدى Amazon أفضل سرية ، و Ali يواجه معظم الصعوبات. **
تقوم الشركات المصنعة المحلية الكبرى بتطوير رقائقها الخاصة ، وستلقي نهاية Oppo Zheku بظلالها على كل لاعب يدخل الميدان. ومع ذلك ، تُجري الشركات الخارجية الكبيرة البحث الذاتي ، ويمكن بناء سلاسل توريد المواهب والتكنولوجيا من الأموال. على سبيل المثال ، عندما شاركت Tesla في FSD ، قامت بتجنيد ** Silicon Valley god Jim Keller ** ، وطوّرت Google TPU ودعوتها مباشرةً تورينج. الحائز على جائزة ، مخترع هندسة RISC ** البروفيسور ديفيد باترسون **.
بالإضافة إلى الشركات المصنعة الكبيرة ، تحاول بعض الشركات الصغيرة والمتوسطة الحجم أيضًا التخلص من كعكة Nvidia ، مثل Graphcore ، التي بلغت قيمتها في السابق 2.8 مليار دولار أمريكي ، وينتمي الكمبري المحلي أيضًا إلى هذه الفئة. يسرد الجدول التالي شركات تصميم شرائح الذكاء الاصطناعي الأكثر شهرة في العالم.
تكمن الصعوبة التي تواجهها الشركات الناشئة في مجال الذكاء الاصطناعي في أنه بدون الاستثمار المستمر للشركات الكبيرة ذات الموارد المالية القوية ، فإنها لا تستطيع إنتاج نفسها وبيعها بنفسها مثل Google. ما لم يكن المسار التقني فريدًا أو كانت المزايا قوية بشكل خاص ، فلا يوجد أساسًا فرصة للفوز عند القتال مع Nvidia. يمكن للتكلفة والمزايا البيئية التي تتمتع بها Nvidia أن تزيل كل شكوك العملاء تقريبًا.
** تأثير بدء التشغيل على Nvidia محدود ، ولا تزال مخاوف Huang Renxun الخفية هي العملاء الكبار غير الأمناء. **
بالطبع ، لا تزال الشركات المصنعة الكبرى لا تنفصل عن Nvidia. على سبيل المثال ، على الرغم من تحديث TPU من Google إلى الجيل الرابع ، فإنها لا تزال بحاجة إلى شراء وحدات معالجة الرسومات بكميات كبيرة لتوفير قوة الحوسبة جنبًا إلى جنب مع TPU ؛ اختر شراء 10000 وحدة معالجة رسومات من NVIDIA.
ومع ذلك ، فقد اختبر Huang Renxun بالفعل صداقة البلاستيك مع كبرى الشركات المصنعة في المسك. في عام 2018 ، أعلن ماسك علنًا أنه سيطور شريحة السيارة الخاصة به (تم استخدام محرك Nvidia's DRIVE PX في ذلك الوقت). تم استجواب Huang Renxun من قبل المحللين على الفور في مكالمة جماعية ، ولم يتمكن من الخروج من المنصة للحصول على بينما. بعد ذلك ، أصدر ماسك "توضيحًا" ، لكن بعد مرور عام ، غادر تسلا Nvidia دون النظر إلى الوراء [5] 。
المصانع الكبيرة لم تظهر أبدًا رحمة في توفير التكاليف. على الرغم من بيع رقائق Intel إلى الطرف B في عصر الكمبيوتر الشخصي ، إلا أن المستهلكين لديهم خيار قوي للاستقلالية ، ويحتاج المصنعون إلى الإعلان عن "Intel Inside" ؛ ولكن في عصر سحابة الطاقة الحاسوبية ، يمكن للعمالقة حظر جميع معلومات الأجهزة الأساسية ، و سوف يشترون أيضًا في المستقبل. مع قوة حوسبة 100TFlops ، هل يمكن للمستهلكين معرفة أي جزء يأتي من TPU وأي جزء يأتي من وحدة معالجة الرسومات؟
لذلك ، يتعين على Nvidia أخيرًا مواجهة السؤال: ** GPU لم يولد بالفعل للذكاء الاصطناعي ، ولكن هل سيكون GPU هو الحل الأمثل للذكاء الاصطناعي؟ **
على مدار السبعة عشر عامًا الماضية ، قام Huang Renxun بفصل وحدة معالجة الرسومات عن لعبة واحدة ومشهد معالجة الصور ، مما يجعلها أداة طاقة حوسبة للأغراض العامة. تستمر السيناريوهات الجديدة في "التعديل السحري" لوحدة معالجة الرسومات ، في محاولة لإيجاد توازن بين "العمومية "و" الخصوصية ".
في العقدين الماضيين ، أدخلت Nvidia عددًا لا يحصى من التقنيات الجديدة التي غيرت الصناعة: منصة CUDA ، TensorCore ، RT Core (تتبع الأشعة) ، NVLink ، منصة cuLitho (الطباعة الحجرية الحاسوبية) ، الدقة المختلطة ، Omniverse ، محرك المحولات ... هذه ساعدت التقنيات Nvidia من شركة شرائح من الدرجة الثانية إلى معصم Nanbo في القيمة السوقية للصناعة بأكملها ، وهو أمر غير ملهم.
لكن يجب أن يكون لدى جيل ما بنية حوسبة في عصر ما. يتقدم تطوير الذكاء الاصطناعي بسرعة ، ويتم قياس الاختراقات التكنولوجية في ساعات.إذا كنت تريد أن يخترق الذكاء الاصطناعي حياة الإنسان بقدر ما كان يحدث عندما أصبحت أجهزة الكمبيوتر / الهواتف الذكية شائعة ، إذن قد تحتاج تكاليف الطاقة الحاسوبية إلى الانخفاض بنسبة 99٪ ، وقد لا تكون وحدات معالجة الرسومات (GPU) هي الإجابة الوحيدة بالفعل.
** يخبرنا التاريخ أنه بغض النظر عن مدى ازدهار الإمبراطورية ، فقد يتعين عليها توخي الحذر بشأن هذا الصدع غير الواضح. **
مراجع
[1] تصنيف ImageNet مع الشبكات العصبية التلافيفية العميقة ، هينتون
[2] مايكروسوفت تستعد لشريحة الذكاء الاصطناعي مع ارتفاع تكاليف التعلم الآلي والمعلومات
[3] شبكات عصبية تلافيفية عالية الأداء لمعالجة المستندات
[4] يوفر Cloud TPU v4 من Google تعلم ML على مستوى exaFLOPS بكفاءة رائدة في الصناعة
[5] طموحات تسلا للذكاء الاصطناعي ، معهد توكاوا للأبحاث
[6] التعلم العميق غير الخاضع للإشراف على نطاق واسع باستخدام معالجات الرسومات
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
صدع في إمبراطورية نفيديا
المصدر: المعهد القائم على السيليكون
المؤلف: He Luheng / Boss Dai
في عام 2012 ، وقع حدثان رئيسيان في دائرة الذكاء الاصطناعي. بالترتيب الزمني ، كان أولهما إطلاق Google Brain ، وهو فريق قديم من Google ، باعتباره "العمل الأول" - شبكة التعلم العميق "Google Cat "يمكنه التعرف على القطط ، مع التعرف على 74.8٪. معدل الدقة هو 0.8٪ أعلى من 74٪ من الخوارزمية الفائزة لمسابقة التعرف على الصور المعروفة ImageNet العام السابق.
لكن لحظات غوغل البارزة لم تدم سوى بضعة أشهر. في كانون الأول (ديسمبر) 2012 ، تم إطلاق الفائز بأحدث شبكة ImageNet. قام سيد التعلم العميق هينتون وتلاميذه بإحضار الشبكة العصبية التلافيفية AlexNet ، والتي رفعت معدل دقة التعرف إلى 84٪ ، وبالتالي بدأت ثورة الذكاء الاصطناعي في المستقبل. العقد دفن Google Cat في غبار التاريخ.
لم يكن نموذج ImageNet نفسه هو الذي صدم الصناعة. هذه الشبكة العصبية ، التي تتطلب 14 مليون صورة وما مجموعه 262 بيتافلوب من عمليات الفاصلة العائمة ، استخدمت أربعة فقط من بطاقات NVIDIA Geforce GTX 580 خلال أسبوع من التدريب. كمرجع ، استخدم Google Cat 10 ملايين صورة و 16000 وحدة معالجة مركزية و 1000 جهاز كمبيوتر [1] 。
يُشاع أن Google شاركت أيضًا سراً في المسابقة هذا العام ، وانعكست الصدمة التي تلقتها بشكل مباشر في الإجراء التالي: أنفقت Google 44 مليون دولار للحصول على فريق Hinton ، وقدمت على الفور طلبًا مع Nvidia لعدد كبير من وحدات معالجة الرسومات للذكاء الاصطناعي. التدريب ، وفي نفس الوقت "السلع الكاسحة" هم أيضًا عمالقة مثل Microsoft و Facebook.
** أصبحت Nvidia هي الرابح الأكبر ، وارتفع سعر سهمها بحد أقصى 121 مرة في السنوات العشر القادمة. ولدت إمبراطورية. **
لكن فوق الإمبراطورية ، تجمعت سحبتان مظلمتان تدريجياً. قامت Google ، التي اشترت سلعًا من Nvidia في ذلك الوقت ، بظهور مذهل لأول مرة مع AlphaGo بعد ثلاث سنوات ، وهزمت البطل البشري Ke Jie في عام 2017. اكتشف الأشخاص المتحمسون أن الشريحة التي تقود AlphaGo لم تعد GPU من Nvidia ، بل شريحة TPU المطورة ذاتيًا من Google.
بعد ثلاث سنوات ، تكرر سيناريو مماثل. تيسلا ، التي اعتبرها Huang Renxun عميلًا قياسيًا ، ودعت أيضًا Nvidia GPU. أطلقت أولاً شريحة مركبة FSD مع NPU كأساس ، ثم أخرجت شريحة D1 المستخدمة لبناء مجموعات تدريب AI. فقد Li اثنين من أهم العملاء في عصر الذكاء الاصطناعي.
بحلول عام 2022 ، ستدخل دورة تكنولوجيا المعلومات العالمية مرحلة هبوطية. ستخفض شركات الحوسبة السحابية الكبرى ميزانيات مشتريات GPU لمراكز البيانات واحدة تلو الأخرى. وسوف يهدأ مد تعدين blockchain تدريجيًا. بالإضافة إلى ذلك ، فإن حظر الولايات المتحدة للرقاقات على الصين سيجعل من المستحيل بيع A100 / H100 للصين.بالنسبة لبطاقات الرسومات المتطورة ، ارتفع مخزون Nvidia ، وانخفض سعر سهمها بمقدار 2/3 من ذروته.
في نهاية عام 2022 ، وُلد ChatGPT ، وتم نهب وحدات معالجة الرسومات ، كوقود لـ "الكيمياء" على نطاق واسع. نشرت المعلومات الأخبار: * * مايكروسوفت ، البادئ في هذه الجولة من موجة الذكاء الاصطناعي ، تطور سرًا شريحة الذكاء الاصطناعي الخاصة بها ** [2] 。
تم تصنيع هذه الشريحة التي تسمى أثينا بواسطة TSMC وتستخدم عملية متقدمة 5 نانومتر.عدد فريق البحث والتطوير التابع لشركة Microsoft يقترب من 300. من الواضح أن الهدف من هذه الشريحة هو استبدال A100 / H100 باهظ الثمن ، وتوفير محرك طاقة حوسبة لـ OpenAI ، وفي النهاية ستنتزع كعكة Nvidia من خلال خدمة Azure السحابية من Microsoft.
تعد Microsoft حاليًا أكبر مشترٍ لـ Nvidia's H100 ، وقد ترددت شائعات بأنها "ستختتم" الطاقة الإنتاجية للعام بأكمله لـ H100. إشارة التفكك من Microsoft هي بلا شك صاعقة من اللون الأزرق. يجب أن تعلم أنه حتى عندما كانت Intel في أحلك حالاتها ، لم يجرؤ أي من عملائها على صنع شرائح وحدة المعالجة المركزية الخاصة بهم (باستثناء Apple ، التي لا تبيعها خارجيًا) .
على الرغم من أن Nvidia تحتكر حاليًا 90٪ من السوق لقوة حوسبة الذكاء الاصطناعي باستخدام GPU + NVlink + CUDA ، فقد ظهر الكراك الأول في ** الإمبراطورية. **
** 01 ، GPU الذي لم يولد للذكاء الاصطناعي **
منذ البداية ، لم يتم تصنيع وحدات معالجة الرسومات للذكاء الاصطناعي.
في أكتوبر 1999 ، أصدرت Nvidia GeForce 256 ، وهي شريحة معالجة رسومات تعتمد على عملية TSMC 220 نانومتر ودمج 23 مليون ترانزستور. استخرجت Nvidia الأحرف الأولى "GPU" من وحدة معالجة الرسومات ، وأطلق عليها اسم GeForce 256 ** "أول وحدة معالجة رسومات في العالم" اليوم.
في هذا الوقت ، ظل الذكاء الاصطناعي صامتًا لسنوات عديدة ، لا سيما في مجال الشبكات العصبية العميقة.لا يزال الفائزون بجائزة تورنج المستقبلية مثل جيفري هينتون ويان ليكون يجلسون على مقاعد البدلاء الأكاديمية ، ولا يفكرون أبدًا في حياتهم المهنية. سيتم تغييره بالكامل بواسطة وحدة معالجة الرسومات (GPU) التي تم تطويرها في الأصل للاعبين.
** لمن ولد GPU؟ صورة**. بتعبير أدق ، تم إنشاؤه لتحرير وحدة المعالجة المركزية من شد عرض الرسومات. يتمثل المبدأ الأساسي لعرض الصور في تقسيم صورة كل إطار إلى وحدات بكسل فردية ، ثم إجراء عمليات عرض متعددة مثل معالجة الرأس ، والمعالجة الأولية ، والتنقيط ، ومعالجة الأجزاء ، وعملية البكسل ، وما إلى ذلك ، وعرضها أخيرًا على الشاشة.
** لماذا تقول هذا عمل شاق؟ حل مسألة حسابية بسيطة: **
بافتراض وجود 300000 بكسل على الشاشة ، محسوبة بمعدل إطارات 60 إطارًا في الثانية ، يجب إكمال 18 مليون عرض في الثانية ، في كل مرة بما في ذلك الخطوات الخمس المذكورة أعلاه ، والتي تتوافق مع خمسة تعليمات ، أي تحتاج وحدة المعالجة المركزية إلى أكمل 90 مليون تعليمات في الثانية لتحقيق عرض تقديمي للشاشة لمدة ثانية واحدة كمرجع ، كانت وحدة المعالجة المركزية عالية الأداء من Intel في ذلك الوقت 60 مليون عملية حسابية فقط في الثانية.
هذا ليس بسبب ضعف وحدة المعالجة المركزية ، ولكن لأنها جيدة في جدولة الخيط ، لذلك يتم توفير مساحة أكبر لوحدة التحكم ووحدة التخزين ، وتشغل وحدة الحوسبة المستخدمة في الحساب 20٪ فقط من المساحة. على العكس من ذلك ، فإن وحدة معالجة الرسومات (GPU) تمثل أكثر من 80٪ من المساحة هي وحدة الحوسبة ، والتي توفر إمكانات حوسبة متوازية فائقة ، وهي أكثر ملاءمة لعمل عرض الصور بخطوة ثابتة ومتكررة ومملة.
لم يكن الأمر كذلك إلا بعد بضع سنوات حتى أدرك بعض علماء الذكاء الاصطناعي أن وحدات معالجة الرسومات بهذه الخصائص مناسبة أيضًا للتدريب على التعلم العميق. تم اقتراح العديد من معماريات الشبكات العصبية العميقة الكلاسيكية في وقت مبكر من النصف الثاني من القرن العشرين ، ولكن نظرًا لنقص الأجهزة الحاسوبية لتدريبها ، يمكن أن تكون العديد من الدراسات "على الورق" فقط ، وقد توقف التطور لفترة طويلة وقت.
طلقة نارية في أكتوبر 1999 جلبت وحدات معالجة الرسومات إلى الذكاء الاصطناعي. تتمثل عملية التدريب للتعلم العميق في إجراء عمليات هرمية على كل قيمة إدخال وفقًا لوظائف ومعلمات كل طبقة من طبقات الشبكة العصبية ، وأخيراً الحصول على قيمة مخرجات ، الأمر الذي يتطلب عددًا كبيرًا من عمليات المصفوفة تمامًا مثل عرض الرسومات - هذا يحدث أن يكون أفضل ما في GPU.
ومع ذلك ، تُظهر الصورة أنه على الرغم من أن كمية معالجة البيانات ضخمة ، إلا أن معظم الخطوات ثابتة. بمجرد تطبيق الشبكة العصبية العميقة على مجال صنع القرار ، فإنها ستشمل مواقف معقدة مثل الهياكل الفرعية ، ومعلمات كل طبقة تحتاج إلى التدريب على أساس البيانات الضخمة ، الإيجابية والسلبية. استمر في المراجعة. وضعت هذه الاختلافات مخاطر خفية لتكيف وحدات معالجة الرسومات مع الذكاء الاصطناعي في المستقبل.
اليوم ، يعد المدير العام لشركة Amazon AI / ML ، كومار تشيلابيلا ، أول عالم يأكل سلطعون GPU. في عام 2006 ، استخدم بطاقة الرسومات GeForce 7800 من Nvidia لتنفيذ الشبكة العصبية التلافيفية (CNN) لأول مرة ، ووجد أنها كانت أسرع 4 مرات من استخدام وحدة المعالجة المركزية. هذه هي أقدم محاولة معروفة لاستخدام وحدات معالجة الرسومات للتعلم العميق [3] 。
لم يجذب عمل Kumar اهتمامًا واسعًا ، ويرجع ذلك أساسًا إلى التعقيد الكبير في البرمجة القائمة على وحدة معالجة الرسومات. ولكن في هذا الوقت فقط ، أطلقت Nvidia منصة CUDA في عام 2007 ، مما قلل بشكل كبير من صعوبة استخدام المطورين لوحدة معالجة الرسومات لتدريب الشبكات العصبية العميقة ، مما جعل المؤمنين بالتعلم العميق يرون المزيد من الأمل.
ثم في عام 2009 ، نشر وو إندا من جامعة ستانفورد وآخرون ورقة بحثية متقدمة [6] تعمل وحدة معالجة الرسوميات GPU على تقصير وقت تدريب الذكاء الاصطناعي من أسابيع إلى ساعات بحكم أكثر من 70 مرة من قوة الحوسبة لوحدة المعالجة المركزية. تشير هذه الورقة إلى الطريق لتطبيق أجهزة الذكاء الاصطناعي. لقد سرَّعت وحدة معالجة الرسومات (GPU) بشكل كبير عملية الذكاء الاصطناعي من الورق إلى الواقع.
الجدير بالذكر أن Wu Enda انضم إلى Google Brain عام 2011 وهو أحد رواد مشروع Google Cat المذكور في البداية. سبب فشل Google Brain في استخدام GPU في النهاية غير معروف للأجانب ، ولكن قبل وبعد مغادرة Wu Enda لشركة Google للانضمام إلى Baidu ، كانت هناك شائعات بأن ذلك يرجع إلى أن موقف Google تجاه GPU كان غير واضح.
** بعد استكشاف عدد لا يحصى من الأشخاص ، تم تسليم العصا أخيرًا إلى أستاذ التعلم العميق هينتون ، وقد أشار الوقت بالفعل إلى عام 2012. **
في عام 2012 ، صمم هينتون وطالبان ، هما Alex Krizhevsky و Ilya Sutskeverz ، شبكة عصبية تلافيفية عميقة ، AlexNet ، وخططوا للمشاركة في مسابقة ImageNet هذا العام. لكن المشكلة تكمن في أن تدريب AlexNet باستخدام وحدة المعالجة المركزية قد يستغرق عدة أشهر ، لذلك وجهوا انتباههم إلى وحدة معالجة الرسومات.
إن وحدة معالجة الرسوميات GPU هذه ، التي تعتبر حاسمة في تاريخ تطوير التعلم العميق ، هي "بطاقة رسومات القنبلة النووية" الشهيرة GTX 580. باعتبارها المنتج الرئيسي لأحدث هندسة Fermi من Nvidia ، فإن GTX 580 محشو بـ 512 نواة CUDA (108 في الجيل السابق). وبينما تقفز قوة الحوسبة ، جعلت مشاكل استهلاك الطاقة وتوليد الحرارة المبالغ فيها من Nvidia يطلق عليها اسم "مصنع القنبلة النووية ".
الزرنيخ أ ، عسل ب. بالمقارنة مع "النعومة" عند تدريب الشبكات العصبية باستخدام وحدات معالجة الرسومات ، فإن مشكلة تبديد الحرارة لا تُذكر. أكمل فريق Hinton البرمجة بنجاح باستخدام منصة CUDA الخاصة بـ Nvidia. وبدعم من بطاقتي رسومات GTX 580 ، استغرق تدريب 14 مليون صورة أسبوعًا واحدًا فقط ، وفازت AlexNet بالبطولة بنجاح.
** نظرًا لتأثير مسابقة ImageNet وهينتون نفسه ، أدرك جميع علماء الذكاء الاصطناعي أهمية وحدة معالجة الرسومات في لحظة. **
بعد ذلك بعامين ، اتخذت Google نموذج GoogLeNet للمشاركة في ImageNet وفازت بالبطولة بمعدل دقة 93٪ باستخدام وحدات معالجة الرسومات NVIDIA. وفي هذا العام ، ارتفع عدد وحدات معالجة الرسومات المستخدمة من قبل جميع الفرق المشاركة إلى 110. خارج المسابقات ، أصبح GPU "استهلاكًا لا بد منه" للتعلم العميق ، حيث أرسل Huang Renxun دفقًا ثابتًا من الطلبات.
سمح ذلك لشركة Nvidia بالتخلص من ظل الفشل الذريع في سوق الهواتف المحمولة. بعد إصدار iPhone في عام 2007 ، توسعت كعكة رقائق الهاتف الذكي بسرعة. حاولت Nvidia أيضًا الحصول على قطعة من الفطيرة من Samsung و Qualcomm و MediaTek. فشلت مشكلة تبديد الحرارة. في النهاية ، كان مجال الذكاء الاصطناعي الذي أنقذته وحدة معالجة الرسومات ، هو الذي أعطى Nvidia منحنى نمو ثانٍ.
ولكن بعد كل شيء ، فإن وحدة معالجة الرسوميات (GPU) ليست وليدة لتدريب الشبكات العصبية ، فكلما تطور الذكاء الاصطناعي بشكل أسرع ، كلما تم الكشف عن هذه المشاكل.
على سبيل المثال ، على الرغم من أن وحدة معالجة الرسومات تختلف اختلافًا كبيرًا عن وحدة المعالجة المركزية ، إلا أن كلاهما يتبع بشكل أساسي بنية von Neumann ، ويتم فصل التخزين والتشغيل. عنق الزجاجة الناتج عن هذا الفصل ، بعد كل شيء ، خطوات معالجة الصور ثابتة نسبيًا ، ويمكن حلها من خلال المزيد من العمليات المتوازية ، لكنها قاتلة جدًا في الشبكة العصبية التي تحتوي على العديد من الهياكل الفرعية.
في كل مرة تضيف فيها الشبكة العصبية طبقة أو فرعًا ، فإنها تحتاج إلى زيادة وصول الذاكرة لتخزين البيانات من أجل التراجع ، والوقت الذي يقضيه في ذلك أمر لا مفر منه. خاصة في عصر النماذج الكبيرة ، فكلما كان النموذج أكبر ، زادت الحاجة إلى إجراء المزيد من عمليات الوصول إلى الذاكرة - الطاقة المستهلكة في الوصول إلى الذاكرة أعلى بعدة مرات من تلك الموجودة في الحوسبة.
تشبيه بسيط هو أن وحدة معالجة الرسومات (GPU) هي رجل عضلي (مع العديد من وحدات الحوسبة) ، ولكن لكل تعليمات يتم تلقيها ، يجب عليه الرجوع وإلقاء نظرة على دليل التعليمات (الذاكرة). أخيرًا ، مع زيادة حجم النموذج وتعقيده ، الرجل إن وقت العمل الحقيقي محدود للغاية ، وبدلاً من ذلك ، سئمت جدًا من التقليب بين الكتيبات التي أتناولها بالرغوة في الفم.
تعد مشكلات الذاكرة مجرد واحدة من "المضايقات" العديدة لوحدات معالجة الرسومات في تطبيقات الشبكة العصبية العميقة. كانت Nvidia على دراية بهذه المشكلات منذ البداية ، وسرعان ما بدأت في "التعديل السحري" لوحدة معالجة الرسومات لجعلها أكثر ملاءمة لسيناريوهات تطبيقات الذكاء الاصطناعي ؛ كما يتسلل لاعبو الذكاء الاصطناعي الذين يدركون تمامًا الحريق ، ويحاولون استخدامها عيوب GPU لفتح زاوية إمبراطورية Huang Renxun.
** تبدأ معركة هجومية ودفاعية. **
** 02 ، المعركة المظلمة بين Google و Nvidia **
في مواجهة الطلب الهائل على قوة حوسبة الذكاء الاصطناعي والعيوب الخلقية لوحدة معالجة الرسومات ، قدم Huang Renxun مجموعتين من الحلول للعمل جنبًا إلى جنب.
** المجموعة الأولى هي الاستمرار في تكديس قوة الحوسبة بعنف على طول مسار "الجنية القديمة لقوة الحوسبة لها قوة سحرية لا حدود لها". ** في عصر يتضاعف فيه الطلب على قوة الحوسبة بالذكاء الاصطناعي كل 3.5 شهرًا ، فإن قوة الحوسبة هي الجزرة المعلقة أمام أعين شركات الذكاء الاصطناعي ، مما يجعلهم يوبخون Huang Renxun لمهاراته الرائعة في السيف أثناء انتزاعها مثل الكلب. كل قدرة Nvidia.
** المجموعة الثانية هي حل عدم التطابق تدريجيًا بين سيناريوهات وحدة معالجة الرسومات والذكاء الاصطناعي من خلال "الابتكار المحسن". ** تشمل هذه المشكلات على سبيل المثال لا الحصر استهلاك الطاقة ، وجدران الذاكرة ، واختناقات النطاق الترددي ، والحسابات منخفضة الدقة ، والتوصيلات عالية السرعة ، وتحسينات النماذج المحددة ... منذ عام 2012 ، قامت Nvidia فجأة بتسريع سرعة تحديثات البنية.
بعد أن أصدرت Nvidia CUDA ، استخدمت بنية موحدة لدعم السيناريوهين الرئيسيين للرسومات والحوسبة. ظهر الجيل الأول من الهندسة المعمارية لأول مرة في عام 2007 وكان اسمه Tesla. لم يكن هذا بسبب رغبة Huang Renxun في إظهار تفضيله لماسك ، ولكن لتكريم الفيزيائي نيكولا تيسلا (الجيل الأول كان عمارة كوري).
منذ ذلك الحين ، تم تسمية كل جيل من بنية NVIDIA GPU على اسم علماء مشهورين ، كما هو موضح في الشكل أدناه. في كل تكرار للهندسة المعمارية ، تواصل Nvidia تكديس القوة الحاسوبية ، مع التحسن دون "قطع العضلات والعظام".
من أجل التكيف مع مشهد الذكاء الاصطناعي ، أصبحت وحدة معالجة الرسومات "المعدلة بطريقة سحرية" من Nvidia تشبه إلى حد ما وحدة المعالجة المركزية إلى حد ما - تمامًا مثل قدرة الجدولة الممتازة لوحدة المعالجة المركزية على حساب قوة الحوسبة ، يتعين على Nvidia تقييد نفسها تكديس النوى الحاسوبية. ومع ذلك ، بغض النظر عن كيفية تغيير وحدة معالجة الرسومات مع عبء التنوع ، سيكون من الصعب مطابقة الشريحة المخصصة في سيناريو الذكاء الاصطناعي.
** أول من هاجم Nvidia كان Google ، الذي كان أول من اشترى وحدات معالجة الرسومات على نطاق واسع لحوسبة الذكاء الاصطناعي. **
بعد استعراض عضلاتها مع GoogLeNet في عام 2014 ، لم تعد Google تشارك علنًا في مسابقة التعرف على الأجهزة ، وتآمرت لتطوير رقائق خاصة بالذكاء الاصطناعي. في عام 2016 ، احتلت Google زمام المبادرة مع AlphaGo. بعد فوزها في Li Shishi ، أطلقت على الفور شريحة AI المطورة ذاتيًا TPU ، والتي فاجأت Nvidia بهندسة جديدة "ولدت من أجل AI".
TPU هو اختصار لوحدة معالجة Tensor ، والاسم الصيني هو "وحدة معالجة الموتر". إذا كان "الإصلاح السحري" لوحدة معالجة الرسومات من Nvidia هو هدم الجدار الشرقي لتعويض الجدار الغربي ، فإن TPU سيقلل بشكل أساسي من الطلب على التخزين والاتصال ، ونقل مساحة الشريحة إلى الحساب إلى أقصى حد وعلى وجه التحديد ، فإن العظماء تعنيان:
** الأول هو التكنولوجيا الكمية. ** عادةً ما تستخدم حسابات الكمبيوتر الحديثة بيانات عالية الدقة ، والتي تستهلك قدرًا كبيرًا من الذاكرة ، ولكن في الواقع ، لا تتطلب معظم حسابات الشبكة العصبية الدقة للوصول إلى حسابات النقطة العائمة 32 بت أو 16 بت. جوهر التكميم التكنولوجيا هي أساسًا دمج أرقام 32 بت / 16 بت تقريبًا إلى أعداد صحيحة 8 بت ، مما يحافظ على الدقة المناسبة ويقلل من متطلبات التخزين.
** الثانية هي المصفوفة الانقباضية ، ** وهي مصفوفة ضرب المصفوفة ، وهي واحدة من أهم الفروق بين TPU و GPU. ببساطة ، تتطلب عمليات الشبكة العصبية عددًا كبيرًا من عمليات المصفوفة.يمكن لوحدة معالجة الرسومات فقط تفكيك حسابات المصفوفة في حسابات متجهية متعددة خطوة بخطوة. في كل مرة يتم فيها إكمال مجموعة ، تحتاج إلى الوصول إلى الذاكرة وحفظ نتائج هذه الطبقة حتى يتم الانتهاء من جميع حسابات المتجهات. ، ثم قم بدمج نتائج كل طبقة للحصول على قيمة الإخراج.
في TPU ، ترتبط آلاف وحدات الحوسبة بشكل مباشر لتشكيل مصفوفة ضرب المصفوفة. بصفتها جوهر الحوسبة ، يمكن إجراء حسابات المصفوفة مباشرة. باستثناء تحميل البيانات والوظائف في البداية ، ليست هناك حاجة للوصول إلى وحدات التخزين ، والتي يقلل بشكل كبير من الوصول ، حيث يعمل التردد على تسريع سرعة حساب TPU بشكل كبير ، كما يتم تقليل استهلاك الطاقة وشغل المساحة المادية بشكل كبير.
يعتبر TPU من Google سريعًا جدًا ، ولم يستغرق الأمر سوى ** 15 شهرًا ** من التصميم والتحقق والإنتاج الضخم إلى النشر النهائي في مركز البيانات الخاص به. بعد الاختبار ، تفوق أداء واستهلاك طاقة TPU في سيناريوهات CNN و LSTM و MLP وغيرها من سيناريوهات الذكاء الاصطناعي إلى حد كبير على أداء وحدة معالجة الرسومات الخاصة بشركة Nvidia في نفس الفترة. ** تم الضغط على Nvidia دفعة واحدة. **
إن التعرض للطعن من قبل عميل كبير أمر غير مريح ، لكن Nvidia لن تقف وتتعرض للضرب ، وقد بدأت لعبة شد الحبل.
بعد خمسة أشهر من إطلاق Google لجهاز TPU ، قدمت Nvidia أيضًا بنية Pascal لعملية 16 نانومتر. من ناحية أخرى ، تقدم الهندسة المعمارية الجديدة تقنية التوصيل البيني عالية السرعة ثنائية الاتجاه NVLink الشهيرة ، والتي تعمل على تحسين عرض النطاق الترددي للاتصال بشكل كبير ؛ ومن ناحية أخرى ، فإنها تحاكي تقنية تكميم TPU ، وتحسن كفاءة الحوسبة للشبكة العصبية عن طريق تقليل دقة البيانات.
في عام 2017 ، أطلقت Nvidia Volta ، وهي أول بنية مصممة خصيصًا للتعلم العميق ، والتي قدمت TensorCore لأول مرة ، والتي تُستخدم خصيصًا لعمليات المصفوفة - على الرغم من أن صفيف الضرب 4 × 4 هو نفسه صفيف نبضات TPU 256 × 256 . النسبة رديئة بعض الشيء ، لكنها أيضًا حل وسط تم إجراؤه على أساس الحفاظ على المرونة والتنوع.
أعلن المسؤولون التنفيذيون في NVIDIA للعملاء: ** "Volta ليست ترقية لباسكال ، ولكنها بنية جديدة تمامًا." **
تتسابق Google أيضًا مع الزمن ، فبعد عام 2016 ، تم تحديث TPU لمدة 3 أجيال في غضون خمس سنوات ، حيث أطلقت TPUv2 في عام 2017 ، و TPUv3 في عام 2018 ، و TPUv4 في عام 2021 ، ووضعت البيانات على واجهة Nvidia. [4] : ** TPU v4 أسرع بمقدار 1.2-1.7 مرة من Nvidia's A100 ، مع تقليل استهلاك الطاقة بمقدار 1.3-1.9 مرة. **
لا تبيع Google شرائح TPU للعالم الخارجي ، وفي نفس الوقت تستمر في شراء وحدات معالجة الرسومات من Nvidia بكميات كبيرة ، مما يجعل منافسة شرائح AI بين الاثنين تبقى في "الحرب الباردة" بدلاً من "المنافسة المفتوحة". ولكن بعد كل شيء ، تقوم Google بنشر TPU في نظام الخدمة السحابية الخاص بها لتوفير خدمات طاقة حوسبة AI للعالم الخارجي ، مما يقلل بلا شك من سوق Nvidia المحتمل.
بينما يتقاتل الاثنان في الظلام ، فإن التقدم في مجال الذكاء الاصطناعي يحرز أيضًا تقدمًا سريعًا. في عام 2017 ، اقترحت Google ** طراز Transformer ** الثوري ، ثم طورت OpenAI GPT-1 استنادًا إلى Transformer. اندلع سباق التسلح في الطرز الكبيرة ، وبدأ الطلب على قوة حوسبة الذكاء الاصطناعي في التسارع الثاني منذ ظهور AlexNet في عام 2012.
بعد إدراك الاتجاه الجديد ، أطلقت Nvidia بنية Hopper في عام 2022 ، حيث قدمت محرك تسريع Transformer على مستوى الأجهزة لأول مرة ، مدعية أنه يمكن أن يزيد من وقت التدريب لنموذج اللغة الكبيرة المستند إلى Transformer بمقدار 9 مرات. استنادًا إلى بنية Hopper ، أطلقت Nvidia "أقوى وحدة معالجة رسومات على السطح" - H100.
H100 هو "وحش الغرز" النهائي من Nvidia. فمن ناحية ، يقدم العديد من تقنيات تحسين الذكاء الاصطناعي ، مثل القياس الكمي وحساب المصفوفة (Tensor Core 4.0) ومحرك تسريع المحولات ؛ من ناحية أخرى ، فهو مليء بنقاط القوة التقليدية لـ Nvidia ، مثل 7296 CUDA Core و 80 جيجابايت من الذاكرة HBM2 وما يصل إلى 900 جيجابايت / ثانية من تقنية الاتصال NVLink 4.0.
حملت Nvidia H100 في متناول اليد وتنفس الصعداء مؤقتًا ، فلا توجد شريحة منتجة بكميات كبيرة في السوق أفضل من H100.
** يعد المنشار السري لشركة Google و Nvidia أيضًا إنجازًا مشتركًا: ** استوردت Nvidia الكثير من التقنيات المبتكرة من Google ، كما استفادت أبحاث Google المتطورة حول الذكاء الاصطناعي بشكل كامل من ابتكار وحدة معالجة الرسومات الخاصة بشركة Nvidia. القوة إلى مستوى يمكن أن يستخدمه نموذج لغة كبير "على رؤوس الأصابع". أولئك الذين هم في دائرة الضوء ، مثل OpenAI ، يقفون أيضًا على أكتاف هذين.
لكن المشاعر تنتمي إلى المشاعر ، والعمل ينتمي إلى العمل. جعلت المعركة الهجومية والدفاعية حول وحدة معالجة الرسومات الصناعة أكثر يقينًا من شيء واحد: ** GPU ليست الحل الأمثل للذكاء الاصطناعي ، ولدى ASICs المخصصة إمكانية كسر احتكار Nvidia. ** تم فتح الشقوق ، ولن يكون جوجل الوحيد الذي يتابع ذوقه.
** أصبحت قوة الحوسبة بشكل خاص هي الطلب الأكثر تأكيدًا في عصر AGI ، ويريد الجميع الجلوس على نفس الطاولة مع NVIDIA عند تناول الطعام. **
** 03 ، صدع يتوسع **
بالإضافة إلى OpenAI ، هناك شركتان خارج الصندوق في هذه الجولة من طفرة الذكاء الاصطناعي. إحداهما هي شركة الرسم AI Midjourney ، التي تجعل قدرتها على التحكم في أنماط الرسم المختلفة عددًا لا يحصى من الفنانين المعتمدين على الكربون خائفين ؛ الأخرى هو Authropic ، ومؤسسه من شركة OpenAI. كان روبوت الحوار كلود يلعب ذهابًا وإيابًا مع ChatGPT.
** لكن لم تشتري أي من هاتين الشركتين وحدات معالجة الرسومات Nvidia لبناء حوسبة فائقة ، لكنها استخدمت خدمات الحوسبة من Google. **
من أجل مواجهة انفجار قوة الحوسبة بالذكاء الاصطناعي ، قامت Google ببناء حاسوب عملاق (TPU v4 Pod) مع 4096 TPU. ترتبط الرقائق مع مفاتيح دوائر ضوئية مطورة ذاتيًا (OCS) ، والتي لا يمكن استخدامها فقط لتدريب LaMDA الخاص بهم يمكن أن توفر نماذج اللغات الكبيرة مثل MUM و PaLM أيضًا خدمات رخيصة وعالية الجودة للشركات الناشئة في مجال الذكاء الاصطناعي.
هناك أيضًا Tesla الذي يصنع حاسبًا فائقًا بنفسه. بعد إطلاق شريحة FSD المُركبة على السيارة ، عرضت Tesla للعالم الخارجي الكمبيوتر الفائق Dojo ExaPOD الذي تم تصنيعه باستخدام 3000 من رقائق D1 الخاصة به في أغسطس 2021. من بينها ، تم تصنيع شريحة D1 بواسطة TSMC ، باستخدام تقنية 7 نانومتر ، و 3000 شريحة D1 تجعل Dojo مباشرة خامس أكبر كمبيوتر قوة حوسبة في العالم.
** ومع ذلك ، فإن الجمع بين الاثنين لا يمكن مقارنته بالتأثير الذي أحدثته شريحة أثينا المطورة ذاتيًا من Microsoft. **
تعد Microsoft واحدة من أكبر عملاء Nvidia ، حيث اشترت خدمتها السحابية Azure عشرات الآلاف على الأقل من وحدات معالجة الرسومات المتطورة A100 و H100. SwiftKey وغيرها من المنتجات التي تستخدم الذكاء الاصطناعي.
بعد حساب دقيق ، فإن "ضريبة Nvidia" التي يتعين على Microsoft دفعها هي رقم فلكي ، والرقائق المطورة ذاتيًا تكاد تكون حتمية. تمامًا مثلما قام علي بحساب طلب Taobao Tmall المستقبلي على الحوسبة السحابية وقواعد البيانات والتخزين ، ووجد أنه رقم فلكي ، لذلك بدأ بشكل حاسم في دعم Alibaba Cloud ، وأطلق حملة قوية "de-IOE" داخليًا.
** يعد توفير التكلفة جانبًا واحدًا ، والتكامل الرأسي لخلق التمايز هو جانب آخر. ** في عصر الهواتف المحمولة ، تعد وحدة المعالجة المركزية (AP) والذاكرة والشاشة الخاصة بهواتف Samsung المحمولة يتم إنتاجها وبيعها ذاتيًا ، مما يساهم بشكل كبير في هيمنة Samsung العالمية على نظام Android. تقوم Google و Microsoft في صنع النواة أيضًا بإجراء تحسين على مستوى الرقاقة لخدمات السحابة الخاصة بهما لإحداث اختلافات.
لذلك ، على عكس Apple و Samsung ، اللتين لا تبيعان الرقائق للعالم الخارجي ، على الرغم من أن رقائق الذكاء الاصطناعي الخاصة بشركة Google و Microsoft لن يتم بيعها إلى العالم الخارجي ، إلا أنها ستستوعب بعض عملاء Nvidia المحتملين من خلال "خدمات سحابة الطاقة الحاسوبية للذكاء الاصطناعي". و Authropic أمثلة. هناك المزيد من الشركات الصغيرة (خاصة في طبقة تطبيقات الذكاء الاصطناعي) تختار الخدمات السحابية.
** تركيز سوق الحوسبة السحابية العالمية مرتفع للغاية ، حيث تمثل أكبر خمس شركات مصنعة (Amazon AWS و Microsoft Azure و Google Cloud و Alibaba Cloud و IBM) أكثر من 60٪ ، وهم جميعًا يصنعون شرائح الذكاء الاصطناعي الخاصة بهم. من بينها ، تحرز Google أسرع تقدم ، ولدى IBM أقوى الاحتياطيات ، ولمايكروسوفت التأثير الأكبر ، ولدى Amazon أفضل سرية ، و Ali يواجه معظم الصعوبات. **
تقوم الشركات المصنعة المحلية الكبرى بتطوير رقائقها الخاصة ، وستلقي نهاية Oppo Zheku بظلالها على كل لاعب يدخل الميدان. ومع ذلك ، تُجري الشركات الخارجية الكبيرة البحث الذاتي ، ويمكن بناء سلاسل توريد المواهب والتكنولوجيا من الأموال. على سبيل المثال ، عندما شاركت Tesla في FSD ، قامت بتجنيد ** Silicon Valley god Jim Keller ** ، وطوّرت Google TPU ودعوتها مباشرةً تورينج. الحائز على جائزة ، مخترع هندسة RISC ** البروفيسور ديفيد باترسون **.
تكمن الصعوبة التي تواجهها الشركات الناشئة في مجال الذكاء الاصطناعي في أنه بدون الاستثمار المستمر للشركات الكبيرة ذات الموارد المالية القوية ، فإنها لا تستطيع إنتاج نفسها وبيعها بنفسها مثل Google. ما لم يكن المسار التقني فريدًا أو كانت المزايا قوية بشكل خاص ، فلا يوجد أساسًا فرصة للفوز عند القتال مع Nvidia. يمكن للتكلفة والمزايا البيئية التي تتمتع بها Nvidia أن تزيل كل شكوك العملاء تقريبًا.
** تأثير بدء التشغيل على Nvidia محدود ، ولا تزال مخاوف Huang Renxun الخفية هي العملاء الكبار غير الأمناء. **
بالطبع ، لا تزال الشركات المصنعة الكبرى لا تنفصل عن Nvidia. على سبيل المثال ، على الرغم من تحديث TPU من Google إلى الجيل الرابع ، فإنها لا تزال بحاجة إلى شراء وحدات معالجة الرسومات بكميات كبيرة لتوفير قوة الحوسبة جنبًا إلى جنب مع TPU ؛ اختر شراء 10000 وحدة معالجة رسومات من NVIDIA.
ومع ذلك ، فقد اختبر Huang Renxun بالفعل صداقة البلاستيك مع كبرى الشركات المصنعة في المسك. في عام 2018 ، أعلن ماسك علنًا أنه سيطور شريحة السيارة الخاصة به (تم استخدام محرك Nvidia's DRIVE PX في ذلك الوقت). تم استجواب Huang Renxun من قبل المحللين على الفور في مكالمة جماعية ، ولم يتمكن من الخروج من المنصة للحصول على بينما. بعد ذلك ، أصدر ماسك "توضيحًا" ، لكن بعد مرور عام ، غادر تسلا Nvidia دون النظر إلى الوراء [5] 。
المصانع الكبيرة لم تظهر أبدًا رحمة في توفير التكاليف. على الرغم من بيع رقائق Intel إلى الطرف B في عصر الكمبيوتر الشخصي ، إلا أن المستهلكين لديهم خيار قوي للاستقلالية ، ويحتاج المصنعون إلى الإعلان عن "Intel Inside" ؛ ولكن في عصر سحابة الطاقة الحاسوبية ، يمكن للعمالقة حظر جميع معلومات الأجهزة الأساسية ، و سوف يشترون أيضًا في المستقبل. مع قوة حوسبة 100TFlops ، هل يمكن للمستهلكين معرفة أي جزء يأتي من TPU وأي جزء يأتي من وحدة معالجة الرسومات؟
لذلك ، يتعين على Nvidia أخيرًا مواجهة السؤال: ** GPU لم يولد بالفعل للذكاء الاصطناعي ، ولكن هل سيكون GPU هو الحل الأمثل للذكاء الاصطناعي؟ **
على مدار السبعة عشر عامًا الماضية ، قام Huang Renxun بفصل وحدة معالجة الرسومات عن لعبة واحدة ومشهد معالجة الصور ، مما يجعلها أداة طاقة حوسبة للأغراض العامة. تستمر السيناريوهات الجديدة في "التعديل السحري" لوحدة معالجة الرسومات ، في محاولة لإيجاد توازن بين "العمومية "و" الخصوصية ".
في العقدين الماضيين ، أدخلت Nvidia عددًا لا يحصى من التقنيات الجديدة التي غيرت الصناعة: منصة CUDA ، TensorCore ، RT Core (تتبع الأشعة) ، NVLink ، منصة cuLitho (الطباعة الحجرية الحاسوبية) ، الدقة المختلطة ، Omniverse ، محرك المحولات ... هذه ساعدت التقنيات Nvidia من شركة شرائح من الدرجة الثانية إلى معصم Nanbo في القيمة السوقية للصناعة بأكملها ، وهو أمر غير ملهم.
لكن يجب أن يكون لدى جيل ما بنية حوسبة في عصر ما. يتقدم تطوير الذكاء الاصطناعي بسرعة ، ويتم قياس الاختراقات التكنولوجية في ساعات.إذا كنت تريد أن يخترق الذكاء الاصطناعي حياة الإنسان بقدر ما كان يحدث عندما أصبحت أجهزة الكمبيوتر / الهواتف الذكية شائعة ، إذن قد تحتاج تكاليف الطاقة الحاسوبية إلى الانخفاض بنسبة 99٪ ، وقد لا تكون وحدات معالجة الرسومات (GPU) هي الإجابة الوحيدة بالفعل.
** يخبرنا التاريخ أنه بغض النظر عن مدى ازدهار الإمبراطورية ، فقد يتعين عليها توخي الحذر بشأن هذا الصدع غير الواضح. **
مراجع
[1] تصنيف ImageNet مع الشبكات العصبية التلافيفية العميقة ، هينتون
[2] مايكروسوفت تستعد لشريحة الذكاء الاصطناعي مع ارتفاع تكاليف التعلم الآلي والمعلومات
[3] شبكات عصبية تلافيفية عالية الأداء لمعالجة المستندات
[4] يوفر Cloud TPU v4 من Google تعلم ML على مستوى exaFLOPS بكفاءة رائدة في الصناعة
[5] طموحات تسلا للذكاء الاصطناعي ، معهد توكاوا للأبحاث
[6] التعلم العميق غير الخاضع للإشراف على نطاق واسع باستخدام معالجات الرسومات