المؤلف: Zixi.eth ، ماتريكس بارتنرز الصين المستثمر المصدر: X (تويتر سابقا) @Zixi41620514
في الآونة الأخيرة ، بدأت في التركيز على مسار الذكاء الاصطناعي Web2 / Web3 ، ومجتمع النماذج مفتوحة المصدر في مسار النموذج العالمي ، ومسار البيانات ، والبرامج الوسيطة المختلفة التي تخدم النموذج الكبير - مثل خدمة العملية الكاملة لنموذج الأساس في نموذج الصناعة ، وبعض التطبيقات. نرحب بجميع أنواع رواد الأعمال للتواصل معنا ، ونعتقد أن الذكاء الاصطناعي سيكون مسارا طويل الأجل.
في العدد الأول ، سأشارك أن صناعة وضع العلامات على البيانات في مسار البيانات الذي وضعناه مؤخرا هي أيضا هدف مرض للغاية بالنسبة لي هذا العام.
يمكن تقسيم الذكاء الاصطناعي التطوير إلى إعداد البيانات مع عمليات جمع البيانات وتنظيفها والتعليق عليها وتحسينها باعتبارها الجسم الرئيسي ، وتطوير الخوارزمية مع بناء النموذج والتدريب والضبط والنشر كجسم رئيسي. من بينها ، نظرا للاحتياجات المتنوعة الذكاء الاصطناعي في العصر الجديد للبيانات ، مثل تعدد الوسائط والدقة العالية والتخصيص القوي ، فإن اعتماد البيانات الذكاء الاصطناعي على العمل البشري في العصر الجديد مرتفع جدا أيضا ، ومن الضروري أيضا زيادة تحسين التفاعل السلس بين الذكاء الاصطناعي والناس لزيادة الكفاءة. يشير وضع العلامات على البيانات إلى تحديد وتمايز عناصر الميزة في عينات البيانات المطلوبة لتدريب النموذج. نظرا لأن تطوير الذكاء الاصطناعي لا يزال في مرحلة التعلم الخاضع للإشراف ، يتم تحقيق التعلم والتحقق من معلومات دلالة البيانات والمنطق بين البيانات في عملية التدريب لنماذج خوارزمية الذكاء الاصطناعي ممثلة بالتعلم العميق بناء على تحديد ميزة البيانات ، والتعليق التوضيحي للبيانات ضروري ، وهو أحد المهام الأساسية لإعداد البيانات وحتى تطوير مشروع الذكاء الاصطناعي. على غرار بقية سير عمل إعداد البيانات ، يعتمد وضع العلامات على البيانات بشكل كبير على العمالة. أصبحت دورات العمل الطويلة وتكاليف العمالة الضخمة أحد العوامل الرئيسية التي تقيد تطوير صناعة الذكاء الاصطناعي. أدت نقاط الألم على جانب العرض لخدمات التعليقات التوضيحية للبيانات إلى توليد طلب السوق على أدوات الأتمتة وعززت تطوير تقنية التعليقات التوضيحية الذكية للبيانات وتطبيقها على نطاق واسع.
الشكل 1: من الحصول على البيانات إلى مجموعات البيانات القابلة للاستخدام الذكاء الاصطناعي
في الوقت الحاضر ، في مجال القيادة الذكية ، المصب لأكبر تطبيق للتعليقات التوضيحية للبيانات ، لا تزال هناك حاجة إلى عدد كبير من البشر لتسمية سيناريوهات مختلفة ، مثل القطط ، وأعمدة الهاتف ، وعربات الأطفال ، وما إلى ذلك. على سبيل المثال ، تعد Scale الذكاء الاصطناعي مزودا مهما للبيانات ل OpenAI ، وقد أنشأت استوديوهات التعليقات التوضيحية للبيانات الخاصة بها في دول العالم الثالث حول العالم لمساعدة OpenAI في التعليقات التوضيحية لبيانات النص / الصورة.
ومع ذلك ، مع تقدم الذكاء الاصطناعي ، تزداد تدريجيا نسبة التعليقات التوضيحية المسبقة في سير العمل. في الأيام الأولى ، كان التعليق التوضيحي للبيانات يتم في الغالب يدويا لبناء مجموعات بيانات التعلم الآلي وتجميعها. على الرغم من أنها غير فعالة ومكلفة نسبيا ، إلا أن البيانات المقدمة إلى الجهاز تتمتع بميزة كبيرة طالما أن التعليقات التوضيحية في مكانها الصحيح. بمرور الوقت ، تحول تركيز التعليقات التوضيحية اليدوية تدريجيا من الولايات المتحدة إلى دول العالم الثالث مثل فنزويلا والفلبين لتقليل التكاليف.
مع تطور النموذج، تتحسن دقة التعليقات التوضيحية التلقائية للبيانات، ويمكن استخدام النموذج للمساعدة في التعليق التوضيحي اليدوي، مثل بيانات المعالجة المسبقة للنموذج ثم إرسالها إلى التعليق التوضيحي البشري، أو تتم مراجعة نتائج التعليقات التوضيحية التي يوفرها النموذج الآلي وتصحيحها يدويا. بالمقارنة مع التعليقات التوضيحية اليدوية البحتة ، تعمل التعليقات التوضيحية بمساعدة الذكاء الاصطناعي على تسريع سرعة التعليق التوضيحي للبيانات. حاليا ، تعمل واحدة من أكبر شركات تصنيف البيانات في العالم ، مثل Scale الذكاء الاصطناعي ، على تقليل نسبة المشاركة البشرية في عملية وضع العلامات على البيانات.
على الرغم من أن التعليق التوضيحي المسبق قد حقق نتائج جيدة في مجال رؤية الكمبيوتر ، في العصر الجديد للغات والنماذج الكبيرة ، لا يزال التعليق التوضيحي المسبق غير ناضج للغاية ولا يمكن أن يحل محل العمل البشري تماما. الأسباب هي كما يلي:1. دقة منخفضة ، خاصة عند التعامل مع المهام المعقدة وحالات الحافة. 2. تحيز العينة وقضايا الهلوسة النموذجية. 3. تتطلب بعض القطاعات مجموعات بيانات كبيرة مشروحة من قبل خبراء في الموضوع. 4. قابلية التوسع في التعليقات التوضيحية المسبقة ضعيفة ، خاصة بالنسبة للغات الصغيرة أو السيناريوهات غير الشائعة ، والتكلفة مرتفعة والجودة رديئة ، ولا يزال يتعين إكمالها يدويا.
باختصار ، لن يحل التعليق التوضيحي المسبق محل التعليق التوضيحي اليدوي تماما على المدى القصير ، وسيتعايش الاثنان. في حين أن النسبة المئوية للتعليق التوضيحي اليدوي قد تنخفض ، لا يزال يتعين على المدققين مراجعة التعليقات التوضيحية للبيانات أثناء عملية التعليق التوضيحي.
الشكل: عملية وضع العلامات على البيانات تحت التسمية المسبقة
صناعة التعليقات التوضيحية للبيانات ليست جديدة ، فقد بدأت في الظهور في 17/18 مع ظهور القيادة الذكية. يوضح الرسم البياني أدناه حجم السوق المتوقع لمقدمي وسم البيانات في الصين ، ومن الجدير بالذكر أن حجم سوق توسيم البيانات في الولايات المتحدة يبلغ حوالي 3-5 أضعاف حجم السوق في الصين.
صناعة توسيم البيانات هي سوق مجزأة نسبيا ، ليست مثل مجال به حواجز تقنية عالية للغاية ، ولكنها أشبه بمجال به حواجز إدارية تقنية وبشرية وتنظيمية تمثل ثلث كل منها. تنعكس القدرة التنافسية الأساسية في هذا المجال بشكل رئيسي في الجوانب التالية:1. السعر 2. الجودة 3. تغطية الخبرة والمعرفة (التنوع؟)4. السرعه
السعر واضح ، لأن كل الناس يحتاجون إلى الكثير من البيانات الرخيصة. تدفع ضغوط الأسعار شكلا من أشكال المراجحة الجغرافية ، بينما في الولايات المتحدة المتقدمة ، قد يكلف دفع راتب واحد لإكمال ملصق البيانات ، بينما في الصين الأقل نموا ، يكلف 0.5 دولار فقط ، وفي الفلبين قد يكلف أقل من 0.1 دولار. لذلك ، فإن أحد الحلول في السوق هو إعطاء أوامر لدول العالم الأول ثم تجنيد أشخاص في دول العالم الثالث لحل المشكلة من خلال استوديوهات تعمل مباشرة.
من السهل أيضا فهم جودة البيانات ، كما أن البيانات عالية الجودة مطلوبة في مجال النماذج الكبيرة والقيادة الذكية. إذا كانت جودة البيانات التي يتم إدخالها في النموذج رديئة ، فإن أداء النموذج الكبير سيعاني أيضا. يتمثل أحد الحلول الفعالة لحل مشكلة جودة البيانات في إنشاء بيانات أولية من خلال وضع العلامات المسبقة للنموذج ، ثم التعليق يدويا ، ثم إجراء التعلم المعزز والتعليقات البشرية باستمرار لتحسين جودة وضع العلامات على البيانات. أو ، يحتاج الفريق إلى أن يكون واضحا جدا بشأن عملية وضع العلامات على البيانات للعملاء النهائيين ، وأن يكون قادرا على تطوير إجراءات التشغيل القياسية (SOPs) حتى يتمكن موظفو التعليقات التوضيحية للبيانات من التعليق وفقا لإجراءات التشغيل الموحدة لتحسين الجودة.
ولكن كيف تفهم الخبرة والتغطية المعرفية؟ لنأخذ ثلاثة أمثلة:
هذا تحد كبير في ظل النموذج العام. قد يكون التعليق على نماذج النصوص الكبيرة أمرا سهلا نسبيا ، ولكن عليك العثور على أشخاص يمكنهم التعليق على لغات متعددة مثل الصينية / الإنجليزية / الفرنسية / الألمانية / الروسية / العربية ، وكيف يمكن لشركة تصنيف البيانات توظيف وإدارة العديد من الأشخاص الموزعين على نطاق عالمي سيكون تحديا.
ضع في اعتبارك بدء تشغيل تطبيق الذكاء الاصطناعي في مجال الروبوتات الصوتية / البشر الرقميين. غالبا ما لا تملك الشركات الناشئة الوقت والقوى العاملة والمال لإنشاء فريق التعليقات التوضيحية للبيانات داخليا. كانوا بحاجة إلى العثور على فريق الاستعانة بمصادر خارجية للمساعدة في تسمية عائلات اللغة الصينية مثل لهجة سيتشوان ، واللهجة الكانتونية ، ولهجة شنغهاي ، واللهجة الشمالية الشرقية ، وما إلى ذلك ، بالإضافة إلى عائلات اللغة الإنجليزية مثل لهجة أمريكا الشمالية الإنجليزية ، واللهجة الإنجليزية البريطانية ، واللهجة الإنجليزية السنغافورية. قد يكون العثور على استوديو جيد للتعليقات التوضيحية للبيانات في السوق يمكنه التعامل مع هذه المهام أمرا صعبا للغاية. إذا تم اعتماد المبيعات المباشرة أو التعاقد من الباطن ، فقد يستغرق الأمر شهرا أو شهرين من وقت العمل من تلقي الطلبات إلى التوظيف ، مما سيؤثر بشكل خطير على كفاءة التوريد.
ضع في اعتبارك مجالا أكثر تخصصا ، حيث تتطلب الشركة الناشئة التي تركز على النماذج القانونية الكثير من التعليقات التوضيحية للبيانات القانونية. لا يزال مجال القانون يتمتع بمتطلبات مهنية عالية جدا ، وتحتاج الشركات الناشئة إلى العثور على مزود تعليقات توضيحية للبيانات يفي بالمعايير التالية:1. ما لا يقل عن اثني عشر شخصا يفهمون القانون ، وقد يحتاجون أيضا إلى تغطية القانون الصيني ، وقانون هونغ كونغ ، والقانون الأمريكي ، وما إلى ذلك ؛ يجب أن يكون قادرا على فهم اللغتين الصينية والإنجليزية ؛ 3. لا يمكن أن تكون التكلفة مرتفعة للغاية. إذا طلبت من محام القيام بوضع العلامات ، فقد يترددون في القيام بهذه المهمة بسبب الراتب الأعلى للمحامي. لذلك ، لا يمكن أن يكون الحل الحالي لهذا النوع من التجزئة سوى توظيف متدربين في المدرسة داخليا للعمل على التعليقات التوضيحية للبيانات. بالنسبة لطريقة إدارة المبيعات المباشرة والتعاقد من الباطن ، لا يزال من الصعب للغاية إكمال مسار هذه التقسيمات الفرعية.
وبالتالي ، يمكن تقسيم اللاعبين الرئيسيين في السوق إلى ثلاث فئات:1. يتم ذلك داخليا من قبل شركات كبيرة (مثل التعهيد الجماعي بايدو) ؛ 2. الشركات الناشئة ذات نموذج التعاقد المباشر / من الباطن (يتم تحليلها أدناه) ؛ استوديوهات التعليقات التوضيحية للبيانات الصغيرة والمتوسطة الحجم.
رسم بياني: حجم سوق البيانات في سوق الذكاء الاصطناعي في الصين
قبل أن نتعمق ، دعنا نلقي نظرة على الشركات الناشئة الرائدة الحالية في الفضاء:
** مقياس الذكاء الاصطناعي **: يغطي العمل الرئيسي لشركة Scale الذكاء الاصطناعي في الولايات المتحدة أربعة جوانب: التعليق التوضيحي للبيانات وإدارتها وتقييمها (التحكم في جودة البيانات المشروحة وتحسين كفاءة التعليقات التوضيحية) ، والأتمتة (التعليق التوضيحي الإضافي لتحسين الكفاءة) ، وتوليف البيانات (عندما يصبح النموذج أكثر وفرة ، والبيانات الحقيقية ليست كافية ، فمن الضروري تجميع نموذج تغذية البيانات تلقائيا ، وسنتحدث عن مسار البيانات التركيبية لاحقا). ركز الذكاء الاصطناعي المقياس في البداية على التعليق التوضيحي للقيادة الذاتية ، وقبل عامين ، جاءت 80-90٪ من طلبات الشركة من القيادة الذاتية (2D ، 3D ، LiDAR ، إلخ) ، وقد انخفضت هذه النسبة في السنوات الأخيرة. مصدر طلب الشركة هو استجابة لاتجاه الصناعة للموردين ، وفي السنوات الأخيرة ، تطورت الحكومة والتجارة الإلكترونية والروبوتات والنماذج الكبيرة وغيرها من المجالات بسرعة ، إلى جانب قدرة الفريق الشديدة على فهم اتجاهات الصناعة ، حتى تتمكن من الحفاظ على حصة سوقية عالية في كل قطاع. بالإضافة إلى ذلك، أطلقت Scale الذكاء الاصطناعي خدمة Model كخدمة خاصة بها، مثل مساعدة العملاء على ضبط النماذج واستضافتها ونشرها.
هناك نوعان من نماذج الشحن:
قاعدة الاستهلاك: على سبيل المثال ، يبدأ مقياس الصورة من 2 سنت لكل صورة و 6 سنتات لكل ملصق ، ويبدأ مقياس الفيديو من 13 سنتا لكل إطار فيديو و 3 سنتات لكل ملصق ، ويبدأ مقياس النص من 5 سنتات لكل وظيفة و 3 سنتات لكل ملصق ، ويبدأ الذكاء الاصطناعي مقياس المستند من 2 سنتا لكل وظيفة و 7 سنتات لكل ملصق.
قاعدة المشروع ، التي تستند إلى كمية البيانات في العقد ، وما إلى ذلك ، هي في الواقع دخل قائم على المشروع ، بقيمة وحدة تتراوح من مئات الآلاف من الدولارات إلى عشرات الملايين من الدولارات.
مع إيرادات متوقعة تبلغ 290 مليون دولار في عام 2022 وتقييم حالي يبلغ 7 مليارات دولار ، تعد Scale الذكاء الاصطناعي أكبر شركة لشرح البيانات في العالم. مستثمرو الشركة هم أيضا فاخرون للغاية.
AAC الهايتية: تلعب AAC الهايتية الصينية أيضا دورا مهما في مجال التعليقات التوضيحية للبيانات. تتمتع الشركة بخبرة غنية في التعليقات التوضيحية للبيانات وتنظيف البيانات وتحليل البيانات وما إلى ذلك. ومع ذلك ، فإن المعلومات المتعلقة بنموذج أعمالها التفصيلي وطرق الشحن والتمويل ليست واضحة بعد.
Appen: تعد Appen الأسترالية واحدة من شركات التعليقات التوضيحية للبيانات الرائدة في العالم. على غرار Scale الذكاء الاصطناعي ، يوفر Appen خدمات مثل التعليقات التوضيحية للبيانات وجمع البيانات الصوتية والترجمة. تمتلك الشركة عددا كبيرا من المعلقين حول العالم لتزويد العملاء بخدمات التعليقات التوضيحية للبيانات عالية الجودة. كما يستحق نموذج الأعمال التفصيلي والتمويل الخاص بشركة Appen مزيدا من الدراسة المتعمقة.
تحتل هذه الشركات الثلاث مكانة مهمة في مجال التعليقات التوضيحية للبيانات العالمية ، حيث تمثل المراكز الرائدة في هذا المجال في الولايات المتحدة والصين وأستراليا ، على التوالي. قبل أن نتعمق في نماذج أعمال الشركات الناشئة والمنافسة في السوق ، سيساعد فهم هذه الشركات الرائدة في توفير فهم أكثر شمولا لسياق الصناعة ككل.
هايتي AAC هي شركة مدرجة في البورصة A ، لكنها ليست بالضبط شركة لوضع العلامات على البيانات. بالمقارنة مع بناء فريقها الخاص للقيام بالتعليقات التوضيحية للبيانات ، فإن هايتيان هي في الأساس مزود خدمة فنية ، حيث تستعين بمصادر خارجية لأوامر إلى استوديوهات مختلفة. يعتمد جوهر توسع AAC الهايتي في الصين على: 1. لديها تراكم عميق في التعليقات التوضيحية للكلام ، تغطي أكثر من 190 لغة (تمثل 70-80٪ من الإيرادات) 2. تأثير المقياس 3. قدرة تدويل جيدة. في الصين ، صناعة وضع العلامات على البيانات متوحشة للغاية ومبكرة ، ومتناثرة للغاية وغير منظمة ، وهناك أيضا نقص في معايير وقواعد الصناعة.
يمكننا إلقاء نظرة على مقارنة نموذج العمل بين (Appen) و Haitian لمعرفة نموذج العمل للمبيعات المباشرة / الاستعانة بمصادر خارجية وتجربة الربح الإجمالي.
الشكل: نماذج الأعمال المباشرة / الاستعانة بمصادر خارجية ...
مع الكثير من التنبؤات ، لم يفكر القراء ذوو الذكريات الجيدة في كيفية إعادة تشكيل عنواننا لشرح البيانات باستخدام blockchain. النص الكامل لم يتحدث عن blockchain بعد ، وكيفية إعادة تشكيله؟
يجب أن يكون مستقبل الذكاء الاصطناعي مفتوحا وسياديا، سواء كان البيانات أو قوة الحوسبة أو النماذج، يجب أن يوفر وصولا عالميا ومفتوحا إلى المجتمع على أساس ضمان الجودة والكفاءة العالية. وينبغي أن يتمتع جميع المشاركين الذين يساعدون في النهوض الذكاء الاصطناعي بحقوق ملكية مساهماتهم ونواتجهم، فضلا عن التوزيع المعقول ومكافآت المنافع.
تهدف شركتنا الاستثمارية الأخيرة ، Quest Labs ، إلى إعادة تعريف العلاقة بين الذكاء الاصطناعي والناس في العصر الجديد ، واستخدام تكنولوجيا الذكاء الاصطناعي و blockchain لتعطيل وحل نقاط الألم الحالية في الصناعة. كمجرفة ضرورية في المنبع من سلسلة صناعة الذكاء الاصطناعي ، فإن خدمة البيانات هي المشكلة الأولى التي تريد Quest حلها. تعزيز كفاءة إنتاج البيانات من خلال الذكاء الاصطناعي ، وإعادة تعريف النموذج الاقتصادي والتقاط القيمة لمجموعات البيانات العامة في العصر الجديد من خلال blockchain ، والتي تكمل بعضها البعض لإنتاج بيانات عالية القيمة باستمرار وتحسين قدرة وإدراك الذكاء الاصطناعي المعلقين.
1.AI والذكاء التعاوني البشري:
بنية تحتية ذكية للإنسان في الحلقة ، تتمحور حول الذكاء الاصطناعي لتمكين وتحفيز الفرق البشرية على التفاعل بسلاسة مع نماذج مساعد الطيار ، 提供高精度数据,并迭代提高质量,以在lifecycle中生成高价值数据
سوق لامركزي ، مدعوم من أداة Humans Ops ، التي تزيد من كفاءة إدارة القوى العاملة اللامركزية وتحسن التعاون والتواصل عبر شبكة عالمية من الفرق الموزعة
الكشف عن البيانات والخصوصية والملكية
تحفز المنصة بعمق حركة مرور المستخدمين والالتصاق من خلال التدفق النقدي المدفوع والرموز المميزة ، وتحفز باستمرار تأثير دولاب الموازنة للبيانات ، وتلتقط السلوك والبيانات التاريخية لكل من العرض والطلب للتعلم المستمر من بعضها البعض. تستخدم الخوارزميات للتوصية بأطر الطلب على البيانات وصياغتها لضمان القيمة التجارية المستقبلية (تعدين المجال الصلب) ، والتي تغطي عددا كبيرا من سيناريوهات التجزئة الرأسية. يمكن لجميع المشاركين في علامة البيانات البدء في توفير مجموعات البيانات مقدما ليتم استدعاؤها وتسويقها ، والحصول على التدفق النقدي والمكافآت الرمزية ، لتصبح في النهاية شبكة بيانات الذكاء الاصطناعي مفتوحة قيمة في العصر الجديد.
تشفير البيانات وحماية الخصوصية: يتم استخدام ZK و FHE لتشفير بيانات المستخدم بشكل أفضل للمعالجة والتخزين.
تستخدم تقنية Blockchain لتتبع ملكية البيانات والتحقق منها من قبل المشاركين ، بما في ذلك المخرجات المختلفة مثل الجمع والتعليق التوضيحي ، والقيم المقابلة لها.
نموذج اقتصادي جديد
من خلال Meituan ، وهي منصة عالمية لخدمة بيانات الذكاء الاصطناعي تتطابق تلقائيا مع الذكاء الاصطناعي ، سننتقل من اقتصاد مخطط مركزي إلى اقتصاد سوق.
ضمان مصداقية السمعة + نظام تسوية تحسين العملة الرقمية من خلال تقنية blockchain ، وتوسيع تدفق الأشخاص بشكل لا نهائي على جانب العرض للقيام بمطابقة دقيقة ، بحيث يمكن للأشخاص المناسبين فعل الشيء الصحيح من أجل أن يكونوا فعالين وجودة. من خلال تداخل خدمات وضع العلامات على البيانات والسكان الفقراء ، يتم تحقيق العمالة + الشمول المالي بشكل مقنع.
يتم إعطاء الرموز المميزة للمستخدمين لتحفيز التعلم المستمر والخدمات والمخرجات عالية الجودة ، وفي نفس الوقت تحفيز المستخدمين على تقديم ملاحظات عالية الجودة وفعالة لتحسين نموذج النظام الأساسي لزيادة كفاءة وإنتاجية خط الأنابيب بأكمله (الإنسان والتعلم المستمر المتبادل الذكاء الاصطناعي).
توزيع الفوائد المعقولة والتقاط القيمة وفقا ل POPW من خلال الرموز المميزة ، وتقليل CAC بشكل أفضل ، ثم زيادة الاحتفاظ
من منظور عالم web2 ، هذه منصة توزيع للتعليقات التوضيحية للبيانات ، تشبه إلى حد ما Didi و Meituan Takeaway. ولكن من وجهة نظر web3 ، هذا هو Axie Infinity + YGG مع التدفق النقدي الحقيقي. في السوق الصاعدة لعام 2021 ، جلب الجمع بين Axie و YGG عددا كبيرا من مستخدمي العالم الثالث إلى Web3 ، وقد أطعم هذا النوع من نقابات الألعاب عددا كبيرا جدا من عائلات العالم الثالث أثناء الوباء ، وخاصة الفلبين. أعطى السوق أيضا Axie و YGG عوائد جيدة جدا ، وهي ألفا مثيرة للاهتمام للغاية. بصفتنا مستثمرا في سد Web2 و Web3 ، نحن على استعداد تام لدعم المشاريع والفرق التي تستخدم تقنية blockchain للمساهمة في الأعمال الحقيقية ، ونتطلع إلى أداء الفريق في المستقبل. هذا هو أيضا الاتجاه الذي نرى فيه أن القليل من تقنيات Web3 يمكن أن تعطي أجنحة لأعمال Web2.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
من Web2 إلى Web3: لماذا أنا متفائل على المسار الذكاء الاصطناعي
المؤلف: Zixi.eth ، ماتريكس بارتنرز الصين المستثمر المصدر: X (تويتر سابقا) @Zixi41620514
في الآونة الأخيرة ، بدأت في التركيز على مسار الذكاء الاصطناعي Web2 / Web3 ، ومجتمع النماذج مفتوحة المصدر في مسار النموذج العالمي ، ومسار البيانات ، والبرامج الوسيطة المختلفة التي تخدم النموذج الكبير - مثل خدمة العملية الكاملة لنموذج الأساس في نموذج الصناعة ، وبعض التطبيقات. نرحب بجميع أنواع رواد الأعمال للتواصل معنا ، ونعتقد أن الذكاء الاصطناعي سيكون مسارا طويل الأجل.
في العدد الأول ، سأشارك أن صناعة وضع العلامات على البيانات في مسار البيانات الذي وضعناه مؤخرا هي أيضا هدف مرض للغاية بالنسبة لي هذا العام.
يمكن تقسيم الذكاء الاصطناعي التطوير إلى إعداد البيانات مع عمليات جمع البيانات وتنظيفها والتعليق عليها وتحسينها باعتبارها الجسم الرئيسي ، وتطوير الخوارزمية مع بناء النموذج والتدريب والضبط والنشر كجسم رئيسي. من بينها ، نظرا للاحتياجات المتنوعة الذكاء الاصطناعي في العصر الجديد للبيانات ، مثل تعدد الوسائط والدقة العالية والتخصيص القوي ، فإن اعتماد البيانات الذكاء الاصطناعي على العمل البشري في العصر الجديد مرتفع جدا أيضا ، ومن الضروري أيضا زيادة تحسين التفاعل السلس بين الذكاء الاصطناعي والناس لزيادة الكفاءة. يشير وضع العلامات على البيانات إلى تحديد وتمايز عناصر الميزة في عينات البيانات المطلوبة لتدريب النموذج. نظرا لأن تطوير الذكاء الاصطناعي لا يزال في مرحلة التعلم الخاضع للإشراف ، يتم تحقيق التعلم والتحقق من معلومات دلالة البيانات والمنطق بين البيانات في عملية التدريب لنماذج خوارزمية الذكاء الاصطناعي ممثلة بالتعلم العميق بناء على تحديد ميزة البيانات ، والتعليق التوضيحي للبيانات ضروري ، وهو أحد المهام الأساسية لإعداد البيانات وحتى تطوير مشروع الذكاء الاصطناعي. على غرار بقية سير عمل إعداد البيانات ، يعتمد وضع العلامات على البيانات بشكل كبير على العمالة. أصبحت دورات العمل الطويلة وتكاليف العمالة الضخمة أحد العوامل الرئيسية التي تقيد تطوير صناعة الذكاء الاصطناعي. أدت نقاط الألم على جانب العرض لخدمات التعليقات التوضيحية للبيانات إلى توليد طلب السوق على أدوات الأتمتة وعززت تطوير تقنية التعليقات التوضيحية الذكية للبيانات وتطبيقها على نطاق واسع.
الشكل 1: من الحصول على البيانات إلى مجموعات البيانات القابلة للاستخدام الذكاء الاصطناعي
! [hJQWkT4AU2PQ3QOm8pPJJBmxxDyRyO7j0J6qvdlU.png] (https://img.jinse.cn/7135831_watermarknone.png "7135831")
في الوقت الحاضر ، في مجال القيادة الذكية ، المصب لأكبر تطبيق للتعليقات التوضيحية للبيانات ، لا تزال هناك حاجة إلى عدد كبير من البشر لتسمية سيناريوهات مختلفة ، مثل القطط ، وأعمدة الهاتف ، وعربات الأطفال ، وما إلى ذلك. على سبيل المثال ، تعد Scale الذكاء الاصطناعي مزودا مهما للبيانات ل OpenAI ، وقد أنشأت استوديوهات التعليقات التوضيحية للبيانات الخاصة بها في دول العالم الثالث حول العالم لمساعدة OpenAI في التعليقات التوضيحية لبيانات النص / الصورة.
ومع ذلك ، مع تقدم الذكاء الاصطناعي ، تزداد تدريجيا نسبة التعليقات التوضيحية المسبقة في سير العمل. في الأيام الأولى ، كان التعليق التوضيحي للبيانات يتم في الغالب يدويا لبناء مجموعات بيانات التعلم الآلي وتجميعها. على الرغم من أنها غير فعالة ومكلفة نسبيا ، إلا أن البيانات المقدمة إلى الجهاز تتمتع بميزة كبيرة طالما أن التعليقات التوضيحية في مكانها الصحيح. بمرور الوقت ، تحول تركيز التعليقات التوضيحية اليدوية تدريجيا من الولايات المتحدة إلى دول العالم الثالث مثل فنزويلا والفلبين لتقليل التكاليف.
مع تطور النموذج، تتحسن دقة التعليقات التوضيحية التلقائية للبيانات، ويمكن استخدام النموذج للمساعدة في التعليق التوضيحي اليدوي، مثل بيانات المعالجة المسبقة للنموذج ثم إرسالها إلى التعليق التوضيحي البشري، أو تتم مراجعة نتائج التعليقات التوضيحية التي يوفرها النموذج الآلي وتصحيحها يدويا. بالمقارنة مع التعليقات التوضيحية اليدوية البحتة ، تعمل التعليقات التوضيحية بمساعدة الذكاء الاصطناعي على تسريع سرعة التعليق التوضيحي للبيانات. حاليا ، تعمل واحدة من أكبر شركات تصنيف البيانات في العالم ، مثل Scale الذكاء الاصطناعي ، على تقليل نسبة المشاركة البشرية في عملية وضع العلامات على البيانات.
على الرغم من أن التعليق التوضيحي المسبق قد حقق نتائج جيدة في مجال رؤية الكمبيوتر ، في العصر الجديد للغات والنماذج الكبيرة ، لا يزال التعليق التوضيحي المسبق غير ناضج للغاية ولا يمكن أن يحل محل العمل البشري تماما. الأسباب هي كما يلي:1. دقة منخفضة ، خاصة عند التعامل مع المهام المعقدة وحالات الحافة. 2. تحيز العينة وقضايا الهلوسة النموذجية. 3. تتطلب بعض القطاعات مجموعات بيانات كبيرة مشروحة من قبل خبراء في الموضوع. 4. قابلية التوسع في التعليقات التوضيحية المسبقة ضعيفة ، خاصة بالنسبة للغات الصغيرة أو السيناريوهات غير الشائعة ، والتكلفة مرتفعة والجودة رديئة ، ولا يزال يتعين إكمالها يدويا.
باختصار ، لن يحل التعليق التوضيحي المسبق محل التعليق التوضيحي اليدوي تماما على المدى القصير ، وسيتعايش الاثنان. في حين أن النسبة المئوية للتعليق التوضيحي اليدوي قد تنخفض ، لا يزال يتعين على المدققين مراجعة التعليقات التوضيحية للبيانات أثناء عملية التعليق التوضيحي.
الشكل: عملية وضع العلامات على البيانات تحت التسمية المسبقة
! [KZJdLcjAdtw08bJNZ6Z0ZURmCjqKjsv9LM9U4HrO.png] (https://img.jinse.cn/7135843_watermarknone.png "7135843")
صناعة التعليقات التوضيحية للبيانات ليست جديدة ، فقد بدأت في الظهور في 17/18 مع ظهور القيادة الذكية. يوضح الرسم البياني أدناه حجم السوق المتوقع لمقدمي وسم البيانات في الصين ، ومن الجدير بالذكر أن حجم سوق توسيم البيانات في الولايات المتحدة يبلغ حوالي 3-5 أضعاف حجم السوق في الصين.
صناعة توسيم البيانات هي سوق مجزأة نسبيا ، ليست مثل مجال به حواجز تقنية عالية للغاية ، ولكنها أشبه بمجال به حواجز إدارية تقنية وبشرية وتنظيمية تمثل ثلث كل منها. تنعكس القدرة التنافسية الأساسية في هذا المجال بشكل رئيسي في الجوانب التالية:1. السعر 2. الجودة 3. تغطية الخبرة والمعرفة (التنوع؟)4. السرعه
السعر واضح ، لأن كل الناس يحتاجون إلى الكثير من البيانات الرخيصة. تدفع ضغوط الأسعار شكلا من أشكال المراجحة الجغرافية ، بينما في الولايات المتحدة المتقدمة ، قد يكلف دفع راتب واحد لإكمال ملصق البيانات ، بينما في الصين الأقل نموا ، يكلف 0.5 دولار فقط ، وفي الفلبين قد يكلف أقل من 0.1 دولار. لذلك ، فإن أحد الحلول في السوق هو إعطاء أوامر لدول العالم الأول ثم تجنيد أشخاص في دول العالم الثالث لحل المشكلة من خلال استوديوهات تعمل مباشرة.
من السهل أيضا فهم جودة البيانات ، كما أن البيانات عالية الجودة مطلوبة في مجال النماذج الكبيرة والقيادة الذكية. إذا كانت جودة البيانات التي يتم إدخالها في النموذج رديئة ، فإن أداء النموذج الكبير سيعاني أيضا. يتمثل أحد الحلول الفعالة لحل مشكلة جودة البيانات في إنشاء بيانات أولية من خلال وضع العلامات المسبقة للنموذج ، ثم التعليق يدويا ، ثم إجراء التعلم المعزز والتعليقات البشرية باستمرار لتحسين جودة وضع العلامات على البيانات. أو ، يحتاج الفريق إلى أن يكون واضحا جدا بشأن عملية وضع العلامات على البيانات للعملاء النهائيين ، وأن يكون قادرا على تطوير إجراءات التشغيل القياسية (SOPs) حتى يتمكن موظفو التعليقات التوضيحية للبيانات من التعليق وفقا لإجراءات التشغيل الموحدة لتحسين الجودة.
ولكن كيف تفهم الخبرة والتغطية المعرفية؟ لنأخذ ثلاثة أمثلة:
هذا تحد كبير في ظل النموذج العام. قد يكون التعليق على نماذج النصوص الكبيرة أمرا سهلا نسبيا ، ولكن عليك العثور على أشخاص يمكنهم التعليق على لغات متعددة مثل الصينية / الإنجليزية / الفرنسية / الألمانية / الروسية / العربية ، وكيف يمكن لشركة تصنيف البيانات توظيف وإدارة العديد من الأشخاص الموزعين على نطاق عالمي سيكون تحديا.
ضع في اعتبارك بدء تشغيل تطبيق الذكاء الاصطناعي في مجال الروبوتات الصوتية / البشر الرقميين. غالبا ما لا تملك الشركات الناشئة الوقت والقوى العاملة والمال لإنشاء فريق التعليقات التوضيحية للبيانات داخليا. كانوا بحاجة إلى العثور على فريق الاستعانة بمصادر خارجية للمساعدة في تسمية عائلات اللغة الصينية مثل لهجة سيتشوان ، واللهجة الكانتونية ، ولهجة شنغهاي ، واللهجة الشمالية الشرقية ، وما إلى ذلك ، بالإضافة إلى عائلات اللغة الإنجليزية مثل لهجة أمريكا الشمالية الإنجليزية ، واللهجة الإنجليزية البريطانية ، واللهجة الإنجليزية السنغافورية. قد يكون العثور على استوديو جيد للتعليقات التوضيحية للبيانات في السوق يمكنه التعامل مع هذه المهام أمرا صعبا للغاية. إذا تم اعتماد المبيعات المباشرة أو التعاقد من الباطن ، فقد يستغرق الأمر شهرا أو شهرين من وقت العمل من تلقي الطلبات إلى التوظيف ، مما سيؤثر بشكل خطير على كفاءة التوريد.
ضع في اعتبارك مجالا أكثر تخصصا ، حيث تتطلب الشركة الناشئة التي تركز على النماذج القانونية الكثير من التعليقات التوضيحية للبيانات القانونية. لا يزال مجال القانون يتمتع بمتطلبات مهنية عالية جدا ، وتحتاج الشركات الناشئة إلى العثور على مزود تعليقات توضيحية للبيانات يفي بالمعايير التالية:1. ما لا يقل عن اثني عشر شخصا يفهمون القانون ، وقد يحتاجون أيضا إلى تغطية القانون الصيني ، وقانون هونغ كونغ ، والقانون الأمريكي ، وما إلى ذلك ؛ يجب أن يكون قادرا على فهم اللغتين الصينية والإنجليزية ؛ 3. لا يمكن أن تكون التكلفة مرتفعة للغاية. إذا طلبت من محام القيام بوضع العلامات ، فقد يترددون في القيام بهذه المهمة بسبب الراتب الأعلى للمحامي. لذلك ، لا يمكن أن يكون الحل الحالي لهذا النوع من التجزئة سوى توظيف متدربين في المدرسة داخليا للعمل على التعليقات التوضيحية للبيانات. بالنسبة لطريقة إدارة المبيعات المباشرة والتعاقد من الباطن ، لا يزال من الصعب للغاية إكمال مسار هذه التقسيمات الفرعية.
وبالتالي ، يمكن تقسيم اللاعبين الرئيسيين في السوق إلى ثلاث فئات:1. يتم ذلك داخليا من قبل شركات كبيرة (مثل التعهيد الجماعي بايدو) ؛ 2. الشركات الناشئة ذات نموذج التعاقد المباشر / من الباطن (يتم تحليلها أدناه) ؛ استوديوهات التعليقات التوضيحية للبيانات الصغيرة والمتوسطة الحجم.
رسم بياني: حجم سوق البيانات في سوق الذكاء الاصطناعي في الصين
! [F1zEq2z7zALsirAXyNV94uPmTLqwewBYopHlxyI5.png] (https://img.jinse.cn/7135849_watermarknone.png "7135849")
قبل أن نتعمق ، دعنا نلقي نظرة على الشركات الناشئة الرائدة الحالية في الفضاء:
هناك نوعان من نماذج الشحن:
قاعدة الاستهلاك: على سبيل المثال ، يبدأ مقياس الصورة من 2 سنت لكل صورة و 6 سنتات لكل ملصق ، ويبدأ مقياس الفيديو من 13 سنتا لكل إطار فيديو و 3 سنتات لكل ملصق ، ويبدأ مقياس النص من 5 سنتات لكل وظيفة و 3 سنتات لكل ملصق ، ويبدأ الذكاء الاصطناعي مقياس المستند من 2 سنتا لكل وظيفة و 7 سنتات لكل ملصق.
قاعدة المشروع ، التي تستند إلى كمية البيانات في العقد ، وما إلى ذلك ، هي في الواقع دخل قائم على المشروع ، بقيمة وحدة تتراوح من مئات الآلاف من الدولارات إلى عشرات الملايين من الدولارات.
مع إيرادات متوقعة تبلغ 290 مليون دولار في عام 2022 وتقييم حالي يبلغ 7 مليارات دولار ، تعد Scale الذكاء الاصطناعي أكبر شركة لشرح البيانات في العالم. مستثمرو الشركة هم أيضا فاخرون للغاية.
AAC الهايتية: تلعب AAC الهايتية الصينية أيضا دورا مهما في مجال التعليقات التوضيحية للبيانات. تتمتع الشركة بخبرة غنية في التعليقات التوضيحية للبيانات وتنظيف البيانات وتحليل البيانات وما إلى ذلك. ومع ذلك ، فإن المعلومات المتعلقة بنموذج أعمالها التفصيلي وطرق الشحن والتمويل ليست واضحة بعد.
Appen: تعد Appen الأسترالية واحدة من شركات التعليقات التوضيحية للبيانات الرائدة في العالم. على غرار Scale الذكاء الاصطناعي ، يوفر Appen خدمات مثل التعليقات التوضيحية للبيانات وجمع البيانات الصوتية والترجمة. تمتلك الشركة عددا كبيرا من المعلقين حول العالم لتزويد العملاء بخدمات التعليقات التوضيحية للبيانات عالية الجودة. كما يستحق نموذج الأعمال التفصيلي والتمويل الخاص بشركة Appen مزيدا من الدراسة المتعمقة.
! [xa4j0mwuoOYQ00imQe68w3BjAnA4g95Ujfgfyyt2.png] (https://img.jinse.cn/7135866_watermarknone.png "7135866")
! [a7IUQulVILcdWIgIDUEaI03FMCYU7v9dD8na50Z7.png] (https://img.jinse.cn/7135867_watermarknone.png "7135867")
تحتل هذه الشركات الثلاث مكانة مهمة في مجال التعليقات التوضيحية للبيانات العالمية ، حيث تمثل المراكز الرائدة في هذا المجال في الولايات المتحدة والصين وأستراليا ، على التوالي. قبل أن نتعمق في نماذج أعمال الشركات الناشئة والمنافسة في السوق ، سيساعد فهم هذه الشركات الرائدة في توفير فهم أكثر شمولا لسياق الصناعة ككل.
هايتي AAC هي شركة مدرجة في البورصة A ، لكنها ليست بالضبط شركة لوضع العلامات على البيانات. بالمقارنة مع بناء فريقها الخاص للقيام بالتعليقات التوضيحية للبيانات ، فإن هايتيان هي في الأساس مزود خدمة فنية ، حيث تستعين بمصادر خارجية لأوامر إلى استوديوهات مختلفة. يعتمد جوهر توسع AAC الهايتي في الصين على: 1. لديها تراكم عميق في التعليقات التوضيحية للكلام ، تغطي أكثر من 190 لغة (تمثل 70-80٪ من الإيرادات) 2. تأثير المقياس 3. قدرة تدويل جيدة. في الصين ، صناعة وضع العلامات على البيانات متوحشة للغاية ومبكرة ، ومتناثرة للغاية وغير منظمة ، وهناك أيضا نقص في معايير وقواعد الصناعة.
! [6iWBdOeecyfMWXlJNqoFBPfQ2uR8DBFnFMCq1Lzp.png] (https://img.jinse.cn/7135868_watermarknone.png "7135868")
! [wLae6HBKOMqrzEuPewUKwzonMRcOT3qGYE3naIit.png] (https://img.jinse.cn/7135871_watermarknone.png "7135871")
يمكننا إلقاء نظرة على مقارنة نموذج العمل بين (Appen) و Haitian لمعرفة نموذج العمل للمبيعات المباشرة / الاستعانة بمصادر خارجية وتجربة الربح الإجمالي.
الشكل: نماذج الأعمال المباشرة / الاستعانة بمصادر خارجية ...
! [TQDXGwKEyjSFDYrMViQMs5PBpW3j7KXs4wMmU3ne.png] (https://img.jinse.cn/7135872_watermarknone.png "7135872")
! [RUb44Sii8E9I8kPM9J4yiUFtE7U7t52KUh1s6jd1.png] (https://img.jinse.cn/7135873_watermarknone.png "7135873")
مع الكثير من التنبؤات ، لم يفكر القراء ذوو الذكريات الجيدة في كيفية إعادة تشكيل عنواننا لشرح البيانات باستخدام blockchain. النص الكامل لم يتحدث عن blockchain بعد ، وكيفية إعادة تشكيله؟
يجب أن يكون مستقبل الذكاء الاصطناعي مفتوحا وسياديا، سواء كان البيانات أو قوة الحوسبة أو النماذج، يجب أن يوفر وصولا عالميا ومفتوحا إلى المجتمع على أساس ضمان الجودة والكفاءة العالية. وينبغي أن يتمتع جميع المشاركين الذين يساعدون في النهوض الذكاء الاصطناعي بحقوق ملكية مساهماتهم ونواتجهم، فضلا عن التوزيع المعقول ومكافآت المنافع.
تهدف شركتنا الاستثمارية الأخيرة ، Quest Labs ، إلى إعادة تعريف العلاقة بين الذكاء الاصطناعي والناس في العصر الجديد ، واستخدام تكنولوجيا الذكاء الاصطناعي و blockchain لتعطيل وحل نقاط الألم الحالية في الصناعة. كمجرفة ضرورية في المنبع من سلسلة صناعة الذكاء الاصطناعي ، فإن خدمة البيانات هي المشكلة الأولى التي تريد Quest حلها. تعزيز كفاءة إنتاج البيانات من خلال الذكاء الاصطناعي ، وإعادة تعريف النموذج الاقتصادي والتقاط القيمة لمجموعات البيانات العامة في العصر الجديد من خلال blockchain ، والتي تكمل بعضها البعض لإنتاج بيانات عالية القيمة باستمرار وتحسين قدرة وإدراك الذكاء الاصطناعي المعلقين.
1.AI والذكاء التعاوني البشري:
من منظور عالم web2 ، هذه منصة توزيع للتعليقات التوضيحية للبيانات ، تشبه إلى حد ما Didi و Meituan Takeaway. ولكن من وجهة نظر web3 ، هذا هو Axie Infinity + YGG مع التدفق النقدي الحقيقي. في السوق الصاعدة لعام 2021 ، جلب الجمع بين Axie و YGG عددا كبيرا من مستخدمي العالم الثالث إلى Web3 ، وقد أطعم هذا النوع من نقابات الألعاب عددا كبيرا جدا من عائلات العالم الثالث أثناء الوباء ، وخاصة الفلبين. أعطى السوق أيضا Axie و YGG عوائد جيدة جدا ، وهي ألفا مثيرة للاهتمام للغاية. بصفتنا مستثمرا في سد Web2 و Web3 ، نحن على استعداد تام لدعم المشاريع والفرق التي تستخدم تقنية blockchain للمساهمة في الأعمال الحقيقية ، ونتطلع إلى أداء الفريق في المستقبل. هذا هو أيضا الاتجاه الذي نرى فيه أن القليل من تقنيات Web3 يمكن أن تعطي أجنحة لأعمال Web2.