تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التكنولوجية للتعاون اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يُعتبر تدريب النماذج هو المرحلة الأكثر استهلاكاً للموارد، والأعلى من حيث العوائق التقنية، حيث يحدد مباشرة الحد الأعلى لقدرات النموذج وفعالية تطبيقه الفعلية. بالمقارنة مع الاستدعاءات الخفيفة في مرحلة الاستدلال، يتطلب عملية التدريب استثماراً مستمراً من القدرة الحاسوبية الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "صناعة ثقيلة" لبناء أنظمة الذكاء الاصطناعي. من منظور نماذج الهيكل، يمكن تصنيف طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، وطرق التدريب اللامركزية التي يتم مناقشتها في هذا المقال.
تعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب بواسطة مؤسسة واحدة في مجموعة محلية عالية الأداء، من الأجهزة، والبرمجيات الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب، يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تمكّن هذه البنية التحتية المتكاملة من تحقيق أفضل كفاءة في مشاركة الذاكرة، وتزامن التدرج، وآليات تحمل الأخطاء، مما يجعلها مناسبة جدًا لتدريب نماذج كبيرة مثل GPT وGemini، مع مزايا الكفاءة العالية، وقابلية التحكم في الموارد، لكن في الوقت نفسه، هناك مشاكل مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة السائدة حاليًا لتدريب النماذج الكبيرة، حيث يتمثل جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة آلات لتنفيذها بالتعاون، وذلك للتغلب على قيود الحساب والتخزين على جهاز واحد. على الرغم من أن لديها خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت سيطرة مؤسسة مركزية للتحكم في الجدولة والتزامن، وغالبًا ما تعمل في بيئة شبكة محلية سريعة، من خلال تقنية ناقل الاتصال السريع NVLink، يتم تنسيق جميع المهام الفرعية بواسطة العقدة الرئيسية بشكل موحد. تشمل الطرق الرئيسية ما يلي:
البيانات المتوازية: كل عقدة تدرب معطيات مختلفة مع مشاركة المعلمات، يجب مطابقة أوزان النموذج
التوازي النموذجي: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية توسيع قوية;
تنفيذ متسلسل على مراحل: زيادة معدل الإنتاج.
تقسيم التنسور: تقسيم دقيق لحساب المصفوفة، زيادة توازي الحبيبات.
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، يشبه توجيه نفس المدير عن بُعد للموظفين في "مكاتب" متعددة للتعاون في إنجاز المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبيرة الرئيسية تقريبًا بهذه الطريقة.
اللامركزية التدريبية تمثل مساراً مستقبلياً أكثر انفتاحاً وخصائص مقاومة للرقابة. تتمثل الخصائص الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهام التدريب دون منسق مركزي، عادةً من خلال بروتوكولات تحرك توزيع المهام والتعاون، وتساعد آليات الحوافز المشفرة على ضمان نزاهة المساهمات. التحديات الرئيسية التي تواجه هذا النموذج تشمل:
صعوبة تباين الأجهزة وتقسيم المهام: يصعب تنسيق الأجهزة المختلفة، وكفاءة تقسيم المهام منخفضة؛
عنق الزجاجة في كفاءة الاتصال: الاتصالات الشبكية غير مستقرة، وظهور واضح لعنق الزجاجة في مزامنة التدرجات;
نقص في التنفيذ الموثوق: نقص في بيئة التنفيذ الموثوق، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك حقًا في الحساب؛
نقص التنسيق الموحد: لا يوجد جهاز تحكم مركزي، توزيع المهام، وآلية التراجع عن الاستثناءات معقدة.
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل منهم بقوة الحوسبة لتدريب النموذج بشكل متعاون، ولكن "التدريب اللامركزي على نطاق واسع القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا نظاميًا، يتضمن بنية النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج على العديد من المستويات، لكن ما إذا كان يمكن أن يكون "تعاون فعال + تحفيز الأمانة + نتائج صحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكرة.
تعتبر التعلم الفيدرالي كمرحلة انتقالية بين التوزيع و اللامركزية، حيث يؤكد على الاحتفاظ بالبيانات محليًا، وتركيز تجميع معلمات النموذج، مما يجعلها مناسبة للسيناريوهات التي تركز على الامتثال للخصوصية. يمتلك التعلم الفيدرالي بنية هندسية للتدريب الموزع وقدرة على التعاون المحلي، بينما يتمتع أيضًا بمزايا انتشار البيانات في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يمتلك خصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره كحل "لامركزي تحت السيطرة" في سياقات الامتثال للخصوصية، حيث يكون في مهام التدريب، وهيكل الثقة وآلية التواصل أكثر اعتدالًا، مما يجعله الأنسب كهيكل نشر انتقالي في الصناعة.
جدول المقارنة الشامل لنماذج تدريب الذكاء الاصطناعي
اللامركزية تدريب الحدود، الفرص والواقع المسار
من حيث نماذج التدريب، فإن التدريب اللامركزي ليس مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو متطلبات الموارد العالية جدًا، أو صعوبة التعاون، فإنه بطبيعته غير مناسب لإكماله بكفاءة بين العقد غير المتجانسة وغير الموثوقة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة وصول عشوائي عالية، وزمن وصول منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمه ومزامنته بفعالية على الشبكات المفتوحة؛ كما أن المهام التي تتعلق بخصوصية البيانات والقيود السيادية مقيدة بالتوافق القانوني والقيود الأخلاقية، مما يمنع المشاركة المفتوحة؛ بينما تفتقر المهام التي تفتقر إلى أساس الحوافز التعاونية إلى الدافع للمشاركة الخارجية. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، في أنواع المهام التي تتميز بالهيكل الخفيف وسهولة التوازي والتحفيز، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك، ولكن لا تقتصر على: ضبط LoRA، مهام ما بعد التدريب المرتبطة بمحاذاة السلوك، تدريب وتوسيم البيانات عبر الحشود، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. هذه المهام تتمتع عمومًا بخصائص عالية من التوازي، وانخفاض الترابط، وتحمل القدرة الحاسوبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني عبر الشبكات P2P، بروتوكول Swarm، والمحسنات الموزعة.
نظرة عامة على ملاءمة مهام التدريب اللامركزية
اللامركزية تدريب المشاريع الكلاسيكية解析
حاليًا، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، وتمثل الاتجاهات المتقدمة في البحث النظري الحالي؛ بينما تتمتع Gensyn وFlock.io بمسارات تنفيذ واضحة نسبيًا، ويمكن رؤية تقدم أولي في الهندسة. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهندسة المعمارية وراء هذه المشاريع الخمسة، وتستكشف المزيد عن الفروق والعلاقات التكميلية في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسار التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب للذكاء الاصطناعي لا تتطلب الثقة، مما يتيح لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهمته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات هي PRIME-RL + TOPLOC + SHARDCAST، في إنشاء نظام تدريب للذكاء الاصطناعي يتمتع بالتحقق والشفافية وآلية تحفيز مكتملة.
أولاً، هيكل مجموعة بروتوكولات Prime Intellect والقيمة الأساسية للوحدات الرئيسية
ثانياً، شرح آلية التدريب الرئيسية لـ Prime Intellect
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص لسيناريوهات التدريب اللامركزية من Prime Intellect، مصمم خصيصًا للشبكات غير المتجانسة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف أولوي، حيث يفصل بشكل هيكلي بين عمليات التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال حلقة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات قياسية مع آليات التحقق والتجميع. بالمقارنة مع عمليات التعلم تحت الإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، كما أنه يمهد الطريق لدعم المهام المتعددة المتوازية وتطور السياسات.
TOPLOC: آلية تحقق سلوك التدريب الخفيف الوزن
TOPLOC هو آلية مركزية للتحقق من التدريب اقترحها Prime Intellect ، تُستخدم لتحديد ما إذا كان العقدة قد أكملت فعليًا تعلم استراتيجية فعالة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML ، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل ، بل يقوم بتحليل "سلسلة المراقبة ↔ تحديث الاستراتيجية" بين المسارات المحلية المتسقة لإكمال التحقق من الهيكل الخفيف. إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك خلال عملية التدريب إلى كائنات قابلة للتحقق ، وهي الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة ، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول لنشر وتجميع الأوزان مصمم بواسطة Prime Intellect، مُحسَّن خصيصًا للبيئات الشبكية الحقيقية ذات اللامركزية، وقيود النطاق الترددي، وتغير حالة العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية بشكل مستمر في حالة عدم التزامن، مما يحقق تقاربًا تدريجيًا للأوزان وتطورات متعددة النسخ. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل ملحوظ قابلية التوسع والقدرة على التحمل في التدريب اللامركزي، وهو الأساس الرئيسي لبناء إجماع مستقر على الأوزان وعمليات تدريب مستمرة.
OpenDiLoCo: إطار الاتصال المتناثر غير المتزامن
OpenDiLoCo هو إطار عمل لتحسين الاتصال تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي قدمته DeepMind، تم تصميمه خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود عرض النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي البياني، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على الجيران المحليين لإكمال التدريب التعاوني للنموذج. مع الجمع بين التحديث غير المتزامن وآلية تحمل الأخطاء، يتيح OpenDiLoCo لمجموعات GPU الاستهلاكية والأجهزة الحافة المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، ويعتبر أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل مشاكل التكيف التي تواجه المكتبات التقليدية في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL التوبولوجيا المتفرقة، ضغط التدرجات، المزامنة منخفضة الدقة واستعادة النقاط، ويمكن تشغيله على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهو مكون أساسي يدعم القدرة على الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد عزز بشكل ملحوظ قدرة الشبكة التدريبية على تحمل النطاق الترددي وتوافق الأجهزة، مما يفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية مفتوحة حقًا وبدون الحاجة إلى الثقة.
ثالثاً، شبكة التحفيز Prime Intellect وتقسيم الأدوار
بني Prime Intellect شبكة تدريبية قابلة للتحقق وبدون إذن، مزودة بآلية حوافز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول استنادًا إلى ثلاثة أدوار أساسية:
عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات الملاحظة
عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب والمشاركة في حساب المكافآت وتوحيد الاستراتيجيات
تشمل العملية الأساسية للبروتوكول نشر المهام، وتدريب العقد، والتحقق من المسارات، وتجميع الأوزان، وتوزيع المكافآت، مما يشكل حلقة تحفيزية حول "السلوك التدريبي الحقيقي".
٤- INTELLECT-2: إصدار أول نموذج تدريب اللامركزي القابل للتحقق
أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز تم تدريبه من خلال تعاون عقد لامركزي غير موثوق به وغير متزامن على مستوى العالم، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون مع أكثر من 100 عقدة GPU غير متجانسة موزعة عبر ثلاث قارات، باستخدام بنية غير متزامنة تمامًا، واستغرق التدريب أكثر من 400 ساعة، مما يظهر إمكانية واستقرار الشبكة التعاونية غير المتزامنة. لا يمثل هذا النموذج مجرد اختراق في الأداء، بل هو أيضًا أول تطبيق نظامي لنموذج "التدريب هو توافق" الذي اقترحته Prime Intellect. يتكامل INTELLECT-2 مع PRIME
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
استكشاف تدريب الذكاء الاصطناعي اللامركزي: من السيطرة المركزية إلى التحول التكنولوجي للتعاون العالمي
تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التكنولوجية للتعاون اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يُعتبر تدريب النماذج هو المرحلة الأكثر استهلاكاً للموارد، والأعلى من حيث العوائق التقنية، حيث يحدد مباشرة الحد الأعلى لقدرات النموذج وفعالية تطبيقه الفعلية. بالمقارنة مع الاستدعاءات الخفيفة في مرحلة الاستدلال، يتطلب عملية التدريب استثماراً مستمراً من القدرة الحاسوبية الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "صناعة ثقيلة" لبناء أنظمة الذكاء الاصطناعي. من منظور نماذج الهيكل، يمكن تصنيف طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، وطرق التدريب اللامركزية التي يتم مناقشتها في هذا المقال.
تعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب بواسطة مؤسسة واحدة في مجموعة محلية عالية الأداء، من الأجهزة، والبرمجيات الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب، يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تمكّن هذه البنية التحتية المتكاملة من تحقيق أفضل كفاءة في مشاركة الذاكرة، وتزامن التدرج، وآليات تحمل الأخطاء، مما يجعلها مناسبة جدًا لتدريب نماذج كبيرة مثل GPT وGemini، مع مزايا الكفاءة العالية، وقابلية التحكم في الموارد، لكن في الوقت نفسه، هناك مشاكل مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة السائدة حاليًا لتدريب النماذج الكبيرة، حيث يتمثل جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة آلات لتنفيذها بالتعاون، وذلك للتغلب على قيود الحساب والتخزين على جهاز واحد. على الرغم من أن لديها خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت سيطرة مؤسسة مركزية للتحكم في الجدولة والتزامن، وغالبًا ما تعمل في بيئة شبكة محلية سريعة، من خلال تقنية ناقل الاتصال السريع NVLink، يتم تنسيق جميع المهام الفرعية بواسطة العقدة الرئيسية بشكل موحد. تشمل الطرق الرئيسية ما يلي:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، يشبه توجيه نفس المدير عن بُعد للموظفين في "مكاتب" متعددة للتعاون في إنجاز المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبيرة الرئيسية تقريبًا بهذه الطريقة.
اللامركزية التدريبية تمثل مساراً مستقبلياً أكثر انفتاحاً وخصائص مقاومة للرقابة. تتمثل الخصائص الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهام التدريب دون منسق مركزي، عادةً من خلال بروتوكولات تحرك توزيع المهام والتعاون، وتساعد آليات الحوافز المشفرة على ضمان نزاهة المساهمات. التحديات الرئيسية التي تواجه هذا النموذج تشمل:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل منهم بقوة الحوسبة لتدريب النموذج بشكل متعاون، ولكن "التدريب اللامركزي على نطاق واسع القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا نظاميًا، يتضمن بنية النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج على العديد من المستويات، لكن ما إذا كان يمكن أن يكون "تعاون فعال + تحفيز الأمانة + نتائج صحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكرة.
تعتبر التعلم الفيدرالي كمرحلة انتقالية بين التوزيع و اللامركزية، حيث يؤكد على الاحتفاظ بالبيانات محليًا، وتركيز تجميع معلمات النموذج، مما يجعلها مناسبة للسيناريوهات التي تركز على الامتثال للخصوصية. يمتلك التعلم الفيدرالي بنية هندسية للتدريب الموزع وقدرة على التعاون المحلي، بينما يتمتع أيضًا بمزايا انتشار البيانات في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يمتلك خصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره كحل "لامركزي تحت السيطرة" في سياقات الامتثال للخصوصية، حيث يكون في مهام التدريب، وهيكل الثقة وآلية التواصل أكثر اعتدالًا، مما يجعله الأنسب كهيكل نشر انتقالي في الصناعة.
جدول المقارنة الشامل لنماذج تدريب الذكاء الاصطناعي
اللامركزية تدريب الحدود، الفرص والواقع المسار
من حيث نماذج التدريب، فإن التدريب اللامركزي ليس مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو متطلبات الموارد العالية جدًا، أو صعوبة التعاون، فإنه بطبيعته غير مناسب لإكماله بكفاءة بين العقد غير المتجانسة وغير الموثوقة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة وصول عشوائي عالية، وزمن وصول منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمه ومزامنته بفعالية على الشبكات المفتوحة؛ كما أن المهام التي تتعلق بخصوصية البيانات والقيود السيادية مقيدة بالتوافق القانوني والقيود الأخلاقية، مما يمنع المشاركة المفتوحة؛ بينما تفتقر المهام التي تفتقر إلى أساس الحوافز التعاونية إلى الدافع للمشاركة الخارجية. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، في أنواع المهام التي تتميز بالهيكل الخفيف وسهولة التوازي والتحفيز، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك، ولكن لا تقتصر على: ضبط LoRA، مهام ما بعد التدريب المرتبطة بمحاذاة السلوك، تدريب وتوسيم البيانات عبر الحشود، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. هذه المهام تتمتع عمومًا بخصائص عالية من التوازي، وانخفاض الترابط، وتحمل القدرة الحاسوبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني عبر الشبكات P2P، بروتوكول Swarm، والمحسنات الموزعة.
نظرة عامة على ملاءمة مهام التدريب اللامركزية
اللامركزية تدريب المشاريع الكلاسيكية解析
حاليًا، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، وتمثل الاتجاهات المتقدمة في البحث النظري الحالي؛ بينما تتمتع Gensyn وFlock.io بمسارات تنفيذ واضحة نسبيًا، ويمكن رؤية تقدم أولي في الهندسة. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهندسة المعمارية وراء هذه المشاريع الخمسة، وتستكشف المزيد عن الفروق والعلاقات التكميلية في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسار التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب للذكاء الاصطناعي لا تتطلب الثقة، مما يتيح لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهمته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات هي PRIME-RL + TOPLOC + SHARDCAST، في إنشاء نظام تدريب للذكاء الاصطناعي يتمتع بالتحقق والشفافية وآلية تحفيز مكتملة.
أولاً، هيكل مجموعة بروتوكولات Prime Intellect والقيمة الأساسية للوحدات الرئيسية
ثانياً، شرح آلية التدريب الرئيسية لـ Prime Intellect
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص لسيناريوهات التدريب اللامركزية من Prime Intellect، مصمم خصيصًا للشبكات غير المتجانسة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف أولوي، حيث يفصل بشكل هيكلي بين عمليات التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال حلقة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات قياسية مع آليات التحقق والتجميع. بالمقارنة مع عمليات التعلم تحت الإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، كما أنه يمهد الطريق لدعم المهام المتعددة المتوازية وتطور السياسات.
TOPLOC: آلية تحقق سلوك التدريب الخفيف الوزن
TOPLOC هو آلية مركزية للتحقق من التدريب اقترحها Prime Intellect ، تُستخدم لتحديد ما إذا كان العقدة قد أكملت فعليًا تعلم استراتيجية فعالة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML ، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل ، بل يقوم بتحليل "سلسلة المراقبة ↔ تحديث الاستراتيجية" بين المسارات المحلية المتسقة لإكمال التحقق من الهيكل الخفيف. إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك خلال عملية التدريب إلى كائنات قابلة للتحقق ، وهي الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة ، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول لنشر وتجميع الأوزان مصمم بواسطة Prime Intellect، مُحسَّن خصيصًا للبيئات الشبكية الحقيقية ذات اللامركزية، وقيود النطاق الترددي، وتغير حالة العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية بشكل مستمر في حالة عدم التزامن، مما يحقق تقاربًا تدريجيًا للأوزان وتطورات متعددة النسخ. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل ملحوظ قابلية التوسع والقدرة على التحمل في التدريب اللامركزي، وهو الأساس الرئيسي لبناء إجماع مستقر على الأوزان وعمليات تدريب مستمرة.
OpenDiLoCo: إطار الاتصال المتناثر غير المتزامن
OpenDiLoCo هو إطار عمل لتحسين الاتصال تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي قدمته DeepMind، تم تصميمه خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود عرض النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي البياني، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على الجيران المحليين لإكمال التدريب التعاوني للنموذج. مع الجمع بين التحديث غير المتزامن وآلية تحمل الأخطاء، يتيح OpenDiLoCo لمجموعات GPU الاستهلاكية والأجهزة الحافة المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، ويعتبر أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل مشاكل التكيف التي تواجه المكتبات التقليدية في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL التوبولوجيا المتفرقة، ضغط التدرجات، المزامنة منخفضة الدقة واستعادة النقاط، ويمكن تشغيله على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهو مكون أساسي يدعم القدرة على الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد عزز بشكل ملحوظ قدرة الشبكة التدريبية على تحمل النطاق الترددي وتوافق الأجهزة، مما يفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية مفتوحة حقًا وبدون الحاجة إلى الثقة.
ثالثاً، شبكة التحفيز Prime Intellect وتقسيم الأدوار
بني Prime Intellect شبكة تدريبية قابلة للتحقق وبدون إذن، مزودة بآلية حوافز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول استنادًا إلى ثلاثة أدوار أساسية:
تشمل العملية الأساسية للبروتوكول نشر المهام، وتدريب العقد، والتحقق من المسارات، وتجميع الأوزان، وتوزيع المكافآت، مما يشكل حلقة تحفيزية حول "السلوك التدريبي الحقيقي".
٤- INTELLECT-2: إصدار أول نموذج تدريب اللامركزي القابل للتحقق
أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز تم تدريبه من خلال تعاون عقد لامركزي غير موثوق به وغير متزامن على مستوى العالم، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون مع أكثر من 100 عقدة GPU غير متجانسة موزعة عبر ثلاث قارات، باستخدام بنية غير متزامنة تمامًا، واستغرق التدريب أكثر من 400 ساعة، مما يظهر إمكانية واستقرار الشبكة التعاونية غير المتزامنة. لا يمثل هذا النموذج مجرد اختراق في الأداء، بل هو أيضًا أول تطبيق نظامي لنموذج "التدريب هو توافق" الذي اقترحته Prime Intellect. يتكامل INTELLECT-2 مع PRIME