تحليل ورقة جديدة من أبل لمشكلة انهيار دقة DeepSeek-R1

يعتبر من استخدم نموذج DeepSeek-R1 على دراية بعملية التفكير التي يقوم بها قبل إعطاء الإجابة، وهذا أحد الأسباب التي تجعل نماذج الاستدلال الكبيرة (LRM، Large Reasoning Model) مثل DeepSeek-R1 تحظى بتقدير كبير.

ومع ذلك، طرح فريق مكون من ستة باحثين من شركة آبل تساؤلات حول ذلك. من خلال جعل النموذج يجيب على مجموعة متنوعة من الألغاز، اكتشف فريق البحث أن النماذج الكبيرة الرائدة مثل DeepSeek-R1 و o3-mini و Claude-3.7-Sonnet-Thinking تفشل في الحفاظ على دقتها بعد تجاوز عتبة معينة من التعقيد.

!

رسم | الأوراق البحثية ذات الصلة (المصدر:

من الجدير بالذكر أن سامي بنجيو، المدير الأول للبحث في تعلم الآلة في أبل، هو أحد المؤلفين المشاركين في هذه الورقة. وهو ليس فقط شقيق الحائز على جائزة تورينج يوشوا بنجيو، بل كان أيضًا أحد الأعضاء الأوائل في فريق جوجل برين.

!

صورة | الستة مؤلفين للورقة ذات الصلة، الثاني من اليمين هو سامي بنجيو (Samy Bengio) (المصدر: صورة توضيحية)

خلص أحد مستخدمي الإنترنت على X إلى أن Apple كان غاري ماركوس (غاري ماركوس) ، في الواقع ، نشر غاري ماركوس نفسه أيضا على LinkedIn لتأكيد ورقة Apple. كتب: "أحدث ورقة بحثية لشركة Apple حول القدرة على" العقل "في نماذج اللغات الكبيرة مثيرة للإعجاب للغاية. في مقال طويل في عطلة نهاية الأسبوع ، أشرح السبب (واستكشاف اعتراض محتمل) لإظهار سبب عدم تفاجأك كثيرا. ”

في "مقال عطلة نهاية الأسبوع الطويلة" لغاري ماركوس: "تدعم ورقة Apple الجديدة هذه انتقادي الخاص: على الرغم من أن ما يسمى ب "نماذج الاستدلال" المطورة حديثا قد تجاوزت بشكل متكرر إصدار O1 ، إلا أنها لا تزال تفشل في تحقيق تفكير موثوق به خارج التوزيع بشأن المشكلات الكلاسيكية مثل برج هانوي ". هذه أخبار سيئة للباحثين الذين يأملون في أن تؤدي "قوة الاستدلال" أو "حساب وقت الاستدلال" إلى إعادة نماذج اللغة الكبيرة إلى المسار الصحيح ، والابتعاد عن التوسع البسيط والفشل المتكرر (لا ينتج أبدا اختراقات تكنولوجية تستحق اسم "GPT-5"). ”

!

صورة | غاري ماركوس (Gary Marcus) نشر على موقعه الشخصي "مقالة طويلة في عطلة نهاية الأسبوع" (المصدر:

إذن، هل هذه "أخبار سيئة" أم "أخبار جيدة"؟ لنبدأ بتفاصيل الورقة التي قدمتها أبل.

يمكن أن يكمل ما يصل إلى 100 حركة صحيحة، ولكنه لا يستطيع تقديم أكثر من 5 خطوات صحيحة.

أظهرت دراسة أجراها فريق البحث من شركة آبل ثلاثة أنماط مختلفة من الاستدلال: في المهام ذات التعقيد المنخفض، كان أداء نماذج اللغة الكبيرة القياسية أفضل من نماذج الاستدلال الكبيرة؛ في المهام ذات التعقيد المتوسط، كانت نماذج الاستدلال الكبيرة أكثر تميزًا؛ بينما في المهام ذات التعقيد العالي، لم تتمكن أي من الفئتين من إكمال المهام بشكل فعال.

مع اقتراب المشكلة من التعقيد الحرج، لوحظ أن الجهد المطلوب للاستدلال قد انخفض بطريقة غير بديهية، مما يشير إلى أن النماذج الكبيرة للاستدلال قد تواجه حدًا داخليًا في توسيع نطاق الحساب.

أفادت فرق البحث أن هذه الرؤى تتحدى الافتراضات السائدة حول قدرات نماذج الاستدلال الكبيرة، وتشير إلى أن الطرق الحالية قد تواجه عقبات أساسية في تحقيق الاستدلال القابل للتعميم.

الأهم من ذلك، لاحظ فريق البحث قيود النماذج الكبيرة في القيام بالحسابات الدقيقة. على سبيل المثال، عندما تم تقديم خوارزمية حل لعبة الرياضيات برج هانوي للنموذج، لم يتحسن أداؤها في هذه المسألة.

علاوة على ذلك، كشفت التحليلات المتعمقة لخطوات الخطأ الأولى للنموذج عن أنماط سلوكية غير متوقعة. على سبيل المثال، يمكن للنموذج إتمام ما يصل إلى 100 حركة صحيحة في برج هانوي، لكن لا يمكنه تقديم أكثر من 5 خطوات صحيحة في لغز عبور النهر.

بشكل عام، يعتقد فريق البحث أن هذه الورقة تبرز مزايا نماذج الاستدلال الكبيرة الحالية، كما تكشف عن قيودها، والاستنتاجات الرئيسية للدراسة هي كما يلي:

أولاً، تساءلت فريق البحث عن نموذج التقييم الحالي للنماذج الكبيرة للتفكير على المعايير الرياضية المحددة، وصممت بيئة لغز خوارزمية منصة اختبار تجريبية قابلة للتحكم.

ثانيا ، تظهر تجارب فريق البحث أنه حتى نماذج الاستدلال واسعة النطاق الأكثر تقدما (على سبيل المثال ، o3-mini و DeepSeek-R1 و Claude-3.7-Sonnet-Thinking) لا تزال تفشل في تطوير قدرات حل المشكلات القابلة للتعميم. في بيئات مختلفة ، عندما يتجاوز تعقيد المشكلة عتبة معينة ، تنخفض دقتها في النهاية إلى الصفر.

ثالثًا، اكتشف فريق البحث أن النماذج الكبيرة للاستدلال لديها حد توسع مرتبط بتعقيد المشكلة في قدرة الاستدلال، ويمكن تأكيد ذلك من خلال الاتجاه المعاكس في عدد رموز التفكير بعد الوصول إلى نقطة تعقيد معينة.

رابعاً، تساءلت فريق البحث عن نموذج التقييم الحالي المعتمد على الدقة النهائية، وأظهرت التحليلات أنه مع زيادة تعقيد المشكلات، تظهر الحلول الصحيحة في مواقع متأخرة في عملية الاستدلال مقارنةً بالحلول الخاطئة.

خامسًا، كشفت فرق البحث عن القيود المذهلة لنماذج الاستدلال الكبيرة في القدرة على إجراء الحسابات الدقيقة، بما في ذلك عدم قدرتها على الاستفادة من الخوارزميات الصريحة، وعدم الاتساق في الاستدلال عبر أنواع الألغاز المختلفة.

القدرة المحدودة لنماذج الاستدلال الكبيرة على التصحيح الذاتي

وفقًا للمعلومات المتاحة، فإن النماذج الكبيرة للاستدلال - هي نوع جديد تم تطويره خصيصًا لمهام الاستدلال، مشتق من نماذج اللغة الكبيرة.

تتعلق هذه النماذج بمنتجات تكنولوجية جديدة، حيث تتميز بآلية "تفكير" فريدة، مثل سلسلة التفكير (CoT، Chain-of-Thought) التي تتمتع بقدرة على التأمل الذاتي، وقد أظهرت أداءً متميزًا في العديد من اختبارات المعايير الاستدلالية.

تظهر هذه النماذج أن هناك تحولًا محتملًا في الطريقة التي تعالج بها نماذج اللغة الكبيرة الاستدلال المعقد وحل المشكلات. يعتقد بعض الباحثين أن هذا يمثل خطوة مهمة نحو القدرة على الذكاء الاصطناعي الأكثر عمومية.

على الرغم من وجهات النظر هذه والتقدم في الأداء ، لا تزال الفوائد والقيود الأساسية لنماذج الاستدلال الكبيرة غير مفهومة تماما. السؤال الرئيسي الذي لم تتم الإجابة عليه هو: هل تتمتع نماذج الاستدلال الكبيرة هذه بقدرات استدلال معممة؟ أم أنهم يستفيدون فقط من أشكال مختلفة من مطابقة الأنماط؟

مع زيادة تعقيد المشكلة، كيف ستتغير أداؤها؟ في ظل ميزانية حساب توكن الاستدلال نفسها، كيف تقارن بأداء نماذج اللغة الكبيرة القياسية التي لا تمتلك آلية "التفكير"؟

ما هي القيود الجوهرية للطريقة الحالية للاستدلال؟ ما هي التحسينات التي قد تكون مطلوبة لتحقيق قدرات استدلال أقوى؟

يجادل فريق البحث بأن قيود نموذج التقييم الحالي تؤدي إلى نقص التحليل المنهجي لهذه القضايا. تركز التقييمات الحالية بشكل أساسي على المعايير الرياضية والترميز المعمول بها. في حين أن هذه المعايير لها بعض القيمة ، إلا أنها غالبا ما تعاني من تلوث البيانات ولا يمكنها توفير ظروف تجريبية يمكن التحكم فيها لسيناريوهات وتعقيدات مختلفة.

لفهم سلوك الاستدلال لهذه النماذج بشكل أكثر دقة، اعتقد فريق البحث أنه من الضروري وجود بيئة يمكن فيها إجراء تجارب محكومة.

للقيام بذلك ، بدلا من استخدام معيار قياسي مثل مشكلة رياضية ، تبنوا بيئة ألغاز خاضعة للرقابة ، أي عن طريق تعديل عناصر اللغز مع الاحتفاظ بالمنطق الأساسي ، بحيث يمكن تغيير التعقيد بشكل منهجي ، ويمكن فحص عملية الحل وعملية التفكير الداخلي.

!

(مصدر: خريطة البيانات)

تتميز هذه الألغاز بالخصائص التالية:

(1) القدرة على توفير تحكم دقيق في التعقيد؛

(2) تجنب التلوث الشائع في المعايير الحالية؛

(3) الاعتماد فقط على قواعد محددة بوضوح ، مع التأكيد على القدرة على التفكير الخوارزمي ؛

(4) دعم التقييم الصارم القائم على المحاكيات، مما يتيح التحقق الدقيق من الحلول وتحليل الأعطال بالتفصيل.

من خلال الأبحاث التجريبية، كشفوا عن عدة اكتشافات رئيسية بشأن نماذج الاستدلال الكبيرة الحالية:

أولاً، على الرغم من أن النماذج الكبيرة للاستدلال يمكنها تعلم آليات التفكير الذاتي المعقدة من خلال التعلم المعزز، إلا أنها لم تتمكن من تطوير القدرة على حل المشكلات القابلة للتعميم لمهام التخطيط، حيث تنخفض الأداء إلى الصفر بعد تجاوز حد معين من التعقيد.

ثانياً، كشفت مقارنة الفريق البحثي بين نماذج الاستدلال الكبيرة والنماذج الكبيرة القياسية تحت حساب الاستدلال المكافئ عن ثلاث آليات استدلال مختلفة.

الآلية الأولى هي: بالنسبة للمسائل الأبسط والأقل تركيبًا، يظهر النموذج الكبير القياسي كفاءة ودقة أعلى.

الآلية الثانية هي: مع الزيادة المعتدلة في تعقيد المشكلة، حصلت نماذج الاستدلال الكبيرة على ميزة.

الآلية الثالثة هي: عندما تصبح المشكلة مع زيادة عمق التركيب أكثر تعقيدًا، فإن كلا النوعين من النماذج يتعرضان لانهيار كامل في الأداء.

!

(مصدر: خريطة البيانات)

من المهم ملاحظة أنه مع زيادة تعقيد المشكلة ، تبدأ نماذج الاستدلال الكبيرة في تقليل جهد الاستدلال (كما يقاس بعدد الرموز المميزة في وقت الاستدلال) ، على الرغم من أنها تعمل بعيدا عن الوصول إلى حد طول الجيل مع زيادة تعقيد المشكلة.

!

(مصدر: خريطة البيانات)

هذا يدل على وجود قيود أساسية على قدرة الاستدلال للنماذج الكبيرة: حيث أن وقت الاستدلال يزداد بشكل ملحوظ مع زيادة تعقيد المشكلة.

بالإضافة إلى ذلك ، من خلال تحليل مسارات التفكير الوسيط ، وجد فريق البحث ظاهرة منتظمة تتعلق بتعقيد المشكلة ، أي في المشكلات الأبسط ، يمكن لنموذج الاستدلال في كثير من الأحيان العثور على الحل الخاطئ بسرعة ، ولكن لا يزال يستمر بشكل غير فعال في استكشاف الخيار الخاطئ ، والذي يشار إليه غالبا باسم "الإفراط في التفكير".

في مشكلة متوسطة التعقيد ، يحتاج النموذج إلى إجراء استكشاف مكثف لعدد كبير من مسارات الخطأ قبل أن يتمكن من العثور على الحل الصحيح. بعد عتبة تعقيد معينة ، لن يتمكن النموذج من العثور على الحل الصحيح على الإطلاق.

قال باي تينغ ، الأستاذ المساعد في جامعة بكين للبريد والاتصالات السلكية واللاسلكية ، ل DeepTech إنه على غرار طريقة التفكير البشرية ، بالنسبة للمشاكل المعقدة ، على الرغم من أنهم لا يعرفون ما هي الإجابة الصحيحة ، إلا أنهم يعرفون في كثير من الأحيان ما هو غير صحيح. على وجه التحديد ، يرتبط هذا بحجم مساحة الحل ، لأن مساحة حل المشكلات البسيطة قصيرة ودرجة مطابقة الميزات عالية ، وغالبا ما يكون الحل الصحيح بشكل طبيعي في الواجهة الأمامية لمسار التفكير ، بينما يتم توسيع مساحة حل المشكلات المعقدة بشكل كبير بسبب اقتران المتغيرات متعددة الأبعاد وتداخل المستويات المنطقية ، ومساحة الحل ضخمة ، والتي تتجلى بشكل موضوعي على أنها الخلفية النسبية في تسلسل التفكير.

ماذا يحدث داخل "فكر" نموذج الاستدلال؟

في البحث، يتم إجراء معظم التجارب على نماذج الاستدلال والنماذج غير الاستدلالية المقابلة، مثل Claude 3.7 Sonnet (مع الاستدلال / بدون استدلال) وDeepSeek-R1/V3. اختار فريق البحث هذه النماذج لأن اختياراتها تسمح بالوصول إلى توكنات التفكير، على عكس نماذج مثل سلسلة o من OpenAI.

بالنسبة لكل حالة من الألغاز، قامت فريق البحث بإنشاء 25 عينة، وأبلغت عن متوسط أداء كل نموذج.

للتعمق أكثر في فهم عملية التفكير لنماذج الاستدلال، قامت فريق البحث بتحليل دقيق لآثار استدلالها.

خلال هذه الفترة، تمكنوا من تحقيق تحليل عميق يتجاوز الإجابة النهائية للنموذج من خلال بناء بيئة تجريبية للألغاز، مما أتاح لهم مراقبة وتحليل أدق لمسار الاستدلال الذي يولدونه (أي "عملية التفكير").

بشكل محدد، استخدموا محاكيات الألغاز لاستخراج وتحليل الحلول الوسيطة التي تم اكتشافها خلال عملية التفكير في النموذج.

بعد ذلك، قاموا بدراسة الأنماط والخصائص التي تم تحديدها، وموثوقية الترتيب النسبي أثناء عملية الاستدلال، وكيف تتطور هذه الأنماط مع زيادة تعقيد المشكلة.

في هذا التحليل، ركز فريق البحث على آثار الاستدلال التي أنتجها نموذج استدلال Claude 3.7 Sonnet في تجارب مجموعة الألغاز.

لكل حل وسيط تم تحديده في التتبع ، سجل فريق البحث ما يلي: (1) موقعه النسبي في مسار التفكير (تم تطبيعه حسب طول التفكير الإجمالي) ، (2) صحته كما تم التحقق منه بواسطة محاكي الألغاز لفريق البحث ، و (3) تعقيد المشكلة المقابلة.

هذا يمكّن فريق البحث من وصف تقدم دقة تشكيل الحلول خلال عملية الاستدلال بأكملها.

! lgf2esRhQ8D8S5CgvuCS4e48OS2oxOtufupMh8Dx.png

وجد فريق البحث أنه بالنسبة للأسئلة الأبسط، عادةً ما تجد نماذج الاستدلال الحل الصحيح في مراحل التفكير المبكرة، لكنها تواصل بعد ذلك استكشاف طرق حل غير صحيحة.

بالمقارنة مع الحل الصحيح (الأخضر) ، فإن توزيع الحل الخاطئ (الأحمر) يتحول بشكل كبير نحو نهاية سلسلة الفكر. ينعكس هذا الاتجاه مع زيادة تعقيد المشكلة بشكل معتدل: يستكشف النموذج الحل الخاطئ أولا ، ويصل في الغالب إلى الحل الصحيح في وقت متأخر من التفكير. هذه المرة ، يكون توزيع الحل الخاطئ (الأحمر) منحرفا أكثر من المحلول الصحيح (الأخضر).

أخيراً، بالنسبة للمسائل الأكثر تعقيداً، بدأ النموذج يظهر علامات الانهيار، مما يعني أن النموذج غير قادر على توليد أي حل صحيح أثناء عملية التفكير.

يوضح الشكل أدناه تحليلًا إضافيًا لدقة الحلول داخل مقاطع (فترات) تسلسل التفكير في بيئة برج هانو.

! n9VEKux2mllIbnTW6RTGNTE8mxgwiElcJwe7Twum.png

يمكن ملاحظة أنه بالنسبة للمشاكل الأبسط (قيم N الأصغر) ، تميل دقة الحل إلى الانخفاض أو التقلب مع تقدم التفكير ، مما يوفر مزيدا من الأدلة على ظاهرة الإفراط في التفكير.

ومع ذلك، بالنسبة للمسائل الأكثر تعقيدًا، سيتغير هذا الاتجاه - ستزداد دقة الحلول مع تقدم التفكير، حتى تصل إلى عتبة معينة. بعد تجاوز هذه العتبة من التعقيد، في وضع "الانهيار"، تكون دقة النموذج صفر.

أخبر باي تينغ DeepTech أن النموذج يحتاج إلى استنتاجات متعددة في المشكلات المعقدة ، وفي ظل فرضية عدم وجود حل صحيح ، فمن الممكن أن تستخدم آلية استدلال النموذج تكرارات متعددة لإنشاء استراتيجية تحسين الكفاءة ، والتي قد تكون استراتيجية لحماية الموارد لمنع الكثير من التكرارات. لذلك ، يجب تحليل النتائج الواردة في هذه الورقة بعناية والتحقق منها من مستوى تنفيذ النموذج.

وأشار باي تينغ إلى أنه من الممكن أيضا أن تكون عملية التفكير في النماذج الكبيرة هي في الأساس استدعاء أنماط الذاكرة. بالنسبة لنماذج مثل DeepSeek-R1 و o3-mini ، يعتمد أداؤها بشكل كبير على تغطية وضع الذاكرة في بيانات التدريب ، وعندما يتجاوز تعقيد المشكلة عتبة تغطية وضع الذاكرة (مثل بيئة الألغاز التي يمكن التحكم فيها والتي صممها فريق أبحاث Apple) ، يقع النموذج في حالة "دقة صفرية".

على الرغم من أن بيئة اللغز هذه تسمح بإجراء تجارب مضبوطة للتحكم الدقيق في تعقيد المشكلة، إلا أنها تمثل فقط جزءًا صغيرًا من مهام الاستدلال، وقد لا تتمكن من التقاط تنوع مشاكل الاستدلال في العالم الحقيقي أو تلك التي تتطلب معرفة مكثفة.

من المهم الإشارة إلى أن هذه الدراسة تعتمد بشكل أساسي على الوصول إلى نماذج الاستدلال المتطورة المغلقة من خلال واجهات برمجة التطبيقات السوداء، مما يحد من قدرة فريق البحث على تحليل حالتها الداخلية أو مكونات هيكلها.

بالإضافة إلى ذلك ، عند استخدام محاكي الألغاز الحتمي ، افترض فريق البحث أنه يمكن التحقق من التفكير تماما خطوة بخطوة. ومع ذلك ، في المجالات الأقل تنظيما ، قد يكون من الصعب تحقيق هذا التحقق الدقيق ، مما يحد من ترحيل طريقة التحليل إلى مجموعة أوسع من سيناريوهات الاستدلال.

بشكل عام ، فحص فريق البحث نماذج الاستدلال المتطورة واسعة النطاق من منظور تعقيد المشكلة من خلال بيئة حل الألغاز التي يمكن التحكم فيها. تكشف هذه النتيجة عن قيود النماذج الحالية: على الرغم من آليات التأمل الذاتي المعقدة ، إلا أن هذه النماذج غير قادرة على تطوير مهارات الاستدلال القابلة للتعميم بما يتجاوز عتبة تعقيد معينة. يعتقد فريق البحث أن هذه النتيجة قد تمهد الطريق لدراسة القدرات المنطقية لهذه النماذج.

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت