كيف يعيد دايفت ابتكار خط أنابيب البيانات للأعباء المتعددة الوسائط: تحليل كامل للهيكلية والأداء

SingleForYears · 2026-01-15T21:22:35+00:00

انفجار تطبيقات الذكاء الاصطناعي متعدد الوسائط كشف عن فجوات حاسمة في البنية التحتية لمعالجة البيانات التقليدية. عندما تتعامل Spark و Ray Data مع فك تشفير الصور، ونسخ الصوت، واستخراج إطارات الفيديو، تنهار هياكلها الصلبة. تتضخم الذاكرة بشكل غير متوقع، وتظل دورات وحدة معالجة الرسومات (GPU) غير مستخدمة.

SingleForYears

2026-01-15 21:22:35

انفجار تطبيقات الذكاء الاصطناعي متعددة الوسائط كشف عن فجوات حاسمة في البنية التحتية التقليدية لمعالجة البيانات. عندما تتعامل Spark و Ray Data مع فك ترميز الصور، نسخ الصوت، واستخراج إطارات الفيديو، تنهار هياكلها الصلبة. يتضخم الذاكرة بشكل غير متوقع، وتظل دورات GPU غير مستغلة أثناء اختناقات الإدخال والإخراج، وتتراكم الكتل العنقودية بكفاءات هائلة غير فعالة. يمثل Daft إعادة تفكير أساسية في كيفية تعامل أنظمة البيانات الموزعة مع الطلبات الحاسوبية غير المتجانسة.

ما الذي يجعل معالجة البيانات متعددة الوسائط مختلفة؟

تم بناء محركات خطوط البيانات التقليدية للتجميعات SQL والانضمامات بين الجداول. تعمل الأحمال متعددة الوسائط في بُعد مختلف تمامًا:

انتفاخ الذاكرة: يتضخم ملف JPEG بمقدار 20 مرة عند فك ضغطه. يتم فك تشفير فيديو مدته ساعتان إلى آلاف الإطارات الفردية، كل منها يستهلك ميغابايتات. يجب على خط البيانات توقع هذه الانفجارات وإدارتها ديناميكيًا.

متطلبات الحوسبة المجزأة: تتطلب سلاسل المعالجة استهلاكًا متزامنًا لوحدة المعالجة المركزية، ووحدة معالجة الرسومات، والشبكة. تتضمن عبء العمل الواحد التنزيل، والفك، وإعادة التردد، واستخراج الميزات، والتطبيع، والاستنتاج، والتصنيف — عمليات تجهد مكونات الأجهزة المختلفة في مراحل مختلفة.

متطلبات المقياس: وصلت الأحمال الإنتاجية الحديثة إلى أحجام مذهلة: يحتوي Common Voice 17 على 113,800 ملف صوتي؛ ويحتوي Common Crawl على 10,000 ملف PDF؛ ويغطي ImageNet 803,580 صورة؛ ويشمل Hollywood2 1,000 فيديو. يجب أن تتوسع بنية خط البيانات عبر جميعها بسلاسة.

بنية Daft للبث المباشر: كسر عنق الزجاجة

يعيد Daft هيكلة كيفية تدفق البيانات عبر نظام موزع بشكل أساسي. محرك التنفيذ للبث المباشر Swordfish يعامل البيانات على أنها في حركة مستمرة بدلاً من دفعات ثابتة جالسة في الذاكرة.

نموذج التدفق المستمر: لجزء يحتوي على 100,000 صورة، تنتقل أول 1,000 إلى استنتاج GPU على الفور بينما يخضع الدفعة التالية للتنزيل أو الفك. لا تتوقف نقطة التمعدن الوسيطة أبدًا عن تدفق البيانات. يحافظ النظام على حركة مستمرة عبر جميع مراحل المعالجة.

الضغط الذكي: عندما يصبح استنتاج GPU هو العامل المحدد، تقوم العمليات السابقة تلقائيًا بتقليل السرعة. يمنع هذا النهج المحدود للذاكرة استهلاك الذاكرة المفرط الذي يعاني منه الأنظمة المنافسة.

التقسيم التكيفي: العمليات التي تستهلك الذاكرة بكثافة مثل url_download و image_decode تعدل حجم الدفعات تلقائيًا في الوقت الحقيقي. يتخلى النظام عن التوازي الدقيق مقابل توقعات ثابتة لاستهلاك الذاكرة وإنتاجية مستدامة.

التنسيق الموزع عبر Flotilla: كل عقدة في الكتلة تشغل عامل Swordfish واحد، مما يتيح لنموذج البث أن يتوسع أفقيًا دون تضحيات في الهيكلية. تنطبق نفس مبادئ الكفاءة سواء كانت المعالجة على تيرابايتات محليًا أو بيتابايتات عبر كتلة.

بالإضافة إلى ذلك، يوفر خط البيانات في Daft قدرات أصلية مخصصة للعمليات متعددة الوسائط: عمليات ترميز/فك ترميز/قص/تغيير حجم الصور، طبقات تضمين النص والصورة، تكاملات LLM، التوكن، حساب التشابه الكوني، معالجة URL، وتحويل الفيديو إلى إطارات، جميعها تظهر كتعابير من الدرجة الأولى بدلاً من وظائف Python الخارجية.

نهج Ray Data: المقايضات في العمومية

يبني Ray Data على إطار Python الموزع الخاص بـ Ray، ويكشف عن تجريدات منخفضة المستوى. يركب المستخدمون العمليات عبر دوال map_batches المطبقة على دفعات PyArrow أو DataFrames من pandas.

داخل العمليات التسلسلية، يدمج Ray Data هذه في مهمة واحدة — وهو تحسين يضر بالأحمال متعددة الوسائط. بدون ضبط يدوي دقيق لأحجام الكتل، يرتفع استهلاك الذاكرة بشكل غير متوقع. يمكن للمستخدمين تجسيد الوسيطات داخل مخزن الكائنات الخاص بـ Ray عن طريق تغليف المنطق في فئات، لكن هذا يفرض عبء تسلسلي وتكرارات في الذاكرة. نظرًا لأن مخزن الكائنات في Ray يُخصص بشكل افتراضي فقط 30% من ذاكرة النظام المتاحة، يصبح التبديل إلى التبديل على القرص أمرًا لا مفر منه.

مرونة خط البيانات تأتي على حساب التوقعية والكفاءة.

واقع الأداء: الأرقام

اختبارات الأداء على بنية تحتية مماثلة (8 حالات AWS g6.xlarge، كل منها مزود بـ NVIDIA L4 GPUs، و4 vCPUs، و16 جيجابايت من الذاكرة، و100 جيجابايت EBS) تكشف عن فروقات واضحة:

عبء العمل	Daft	Ray Data	Spark
نسخ الصوت (113,800 ملف)	6د 22ط	29د 20ط (4.6x أبطأ)	25د 46ط (4.0x أبطأ)
تضمين المستندات (10,000 PDF)	1د 54ط	14د 32ط (7.6x أبطأ)	8د 4ط (4.2x أبطأ)
تصنيف الصور (803,580 صورة)	4د 23ط	23د 30ط (5.4x أبطأ)	45د 7ط (10.3x أبطأ)
كشف الأجسام في الفيديو (1,000 فيديو)	11د 46ط	25د 54ط (2.2x أبطأ)	3س 36د (18.4x أبطأ)

ينفذ Daft خطوط أنابيب الصوت أسرع بمقدار 4.6–29 مرة مقارنة بالبدائل. يعاني معالجة المستندات من تسريع بمقدار 4.2–7.6 مرة. يظهر التصنيف الصوري تحسينات تتراوح بين 5.4 و10.3 مرة. تظهر أحمال الفيديو الفجوة الأكثر درامية: يكمل Daft في 11 دقيقة و46 ثانية بينما يتطلب Spark 3 ساعات و36 دقيقة — بفارق 18.4 مرة.

لماذا فجوة الأداء؟

العمليات متعددة الوسائط الأصلية مقابل UDF الخارجية: ينفذ Daft فك ترميز الصور، والاستنتاج عبر التضمين، واستخراج إطارات الفيديو كتعابير مدمجة محسنة. يجبر Ray Data المستخدمين على كتابة UDFs في Python تستدعي Pillow، NumPy، Hugging Face، وغيرها من المكتبات. كل مكتبة تحافظ على تنسيق بياناتها الخاص، مما يخلق حركة بيانات غير ضرورية وتكاليف تسلسلية زائدة.

نموذج الذاكرة للبث مقابل التمعدن: يبث Daft البيانات بشكل غير متزامن من التخزين السحابي عبر وحدات المعالجة المركزية إلى ذاكرة GPU والعودة إلى المخرجات. لا تتجسد أي جزء من البيانات بالكامل في مخزن وسيط. يسبب دمج العمليات في Ray Data ارتفاعات في الذاكرة إلا إذا قام المستخدمون بتحسين حجم الكتل يدويًا، وتؤدي الحلول البديلة إلى عقوبات تسلسلية خاصة بها.

استراتيجية إشباع الموارد: يعالج Daft جميع العمليات داخل عامل Swordfish واحد مع إدارة موحدة للموارد. تتدفق التنزيلات والمعالجة المسبقة على وحدة المعالجة المركزية، والاستنتاج عبر GPU، وتحميل النتائج عبر نفس سياق التنفيذ، مما يحافظ على استهلاك وحدة المعالجة المركزية، ووحدة معالجة الرسومات، والشبكة بشكل مستمر. يخصص Ray Data نوى CPU مخصصة لعمليات الإدخال والإخراج الثقيلة بشكل افتراضي، مما يترك النوى غير مستغلة للحوسبة. يتطلب تحقيق التوزيع الأمثل للموارد ضبطًا يدويًا جزئيًا لوحدة المعالجة المركزية.

أي نظام لأي سيناريو؟

Daft يتفوق عندما:

معالجة مجموعات البيانات متعددة الوسائط (صور، فيديو، صوت، مستندات، تضمينات)
إعطاء الأولوية للموثوقية والأداء المتوقع بدون عبء ضبط
بناء تحويلات معقدة لخط البيانات مع عمليات الانضمام، والتصفية، والتجميع
فرق معتادة على مفاهيم DataFrame/SQL

يظل Ray Data ذا قيمة عندما:

يكون التكامل العميق مع نظام Ray ضروريًا (Ray Train للتدريب الموزع، وRay Serve لخدمة النماذج)
يبرر التحكم الدقيق في تخصيص وحدة المعالجة المركزية/وحدة معالجة الرسومات لكل عملية التعقيد الإضافي

التحقق من الإنتاج

اختبار مقياس AI الأساسي: قام فريق Tim Romanski بتصنيف 23.6 مليار مستند ويب من Common Crawl (24 تريليون رمز) باستخدام Daft، مع وصول إلى 32,000 طلب في الثانية لكل آلة افتراضية. تقييمه: “دفعنا Daft إلى الحد الأقصى وهو مجرب في المعركة. لو حاولنا تكراره في Spark، كنا سنحتاج إلى تكوين JVM، وإدارة مسار الفئات، واستكشاف أخطاء واسع النطاق فقط للإطلاق. زمن التنفيذ في Daft كان أقصر بشكل ملحوظ، والتوسع من التطوير المحلي إلى الكتل كان يتطلب تغييرات معمارية قليلة.”

إعادة بناء بنية CloudKitchens التحتية: أعاد هذا الفريق هيكلة منصة التعلم الآلي بأكملها حول “دِرع الأحلام” (Daft، Ray، poetry، Argo، Metaflow). حدد فريق البنية التحتية لديهم قيودًا محددة في Ray Data أثناء التقييم: تغطية غير مكتملة لـ DataFrame/ETL، وأداء غير مثالي. اختاروا Daft ليكمل طبقة الحوسبة في Ray، مع ملاحظة “Daft يملأ فجوات Ray Data من خلال توفير واجهات DataFrame شاملة” و"قدم تنفيذًا أسرع من Spark مع استهلاك أقل للموارد في اختباراتنا."

التحقق على نطاق واسع من ByteDance: عند تقييم تصنيف الصور على 1.28 مليون عينة من ImageNet، لاحظ مهندسو ByteDance أن Daft يحافظ على معدل إنتاجية أسرع بحوالي 20% من Ray Data. وأبرز تحليلهم الفني “أداء تنفيذ ممتاز وكفاءة في استخدام الموارد” بالإضافة إلى “معالجة تدفق سلس لمجموعات بيانات الصور ذات الحجم الهائل.”

المستقبل

يشهد مشهد خطوط البيانات تحولًا هيكليًا. تكشف الأحمال متعددة الوسائط عن قرارات معمارية كانت ناجحة للتحليلات التقليدية لكنها فشلت تحت ضغط الحوسبة غير المتجانسة. تمثل فلسفة تصميم Daft — البث المستمر، العمليات الأصلية متعددة الوسائط، إدارة الموارد التكيفية، والتنفيذ الموحد للكتلة — ليس تحسينًا تدريجيًا بل إعادة تصنيف فئة. تكتشف المؤسسات التي تعالج الصور، والصوت، والمستندات، والفيديو على نطاق واسع أن إعادة الهيكلة حول هذه المبادئ تعود بأداء يتراوح بين 2-7 أضعاف دون التضحية بالموثوقية أو الحاجة إلى خبرة عميقة في البنية التحتية.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.