蘋果新論文分析DeepSeek-R1準確率崩潰問題

相信使用過 DeepSeek-R1 模型的人,對於它在給出答案之前的思考過程並不陌生,這也是包含 DeepSeek-R1 在內的大型推理模型(LRM,Large Reasoning Model)備受推崇的原因之一。

然而,由蘋果公司六位研究人員組成的團隊卻對此提出了質疑。通過讓模型解答各種謎題,研究團隊發現 DeepSeek-R1、o3-mini 和 Claude-3.7-Sonnet-Thinking 這幾款前沿大型推理模型在超過某一復雜度閾值之後,它們的準確率會出現全面崩潰。

圖 | 相關論文(來源:

值得注意的是,蘋果機器學習研究高級總監薩米·本吉奧(Samy Bengio)是本次論文的共同作者。他不僅是圖靈獎得主約書亞·本吉奧(Yoshua Bengio)的弟弟,還曾是 Google Brain 團隊的首批成員之一。

圖 | 相關論文的六位作者,右二爲薩米·本吉奧(Samy Bengio)(來源:資料圖)

X 上有一名網友總結稱,蘋果這是當了一次加裏·馬庫斯(Gary Marcus),其實加裏·馬庫斯本人也在領英發帖肯定了蘋果這篇論文。他寫道:“蘋果公司最新發表的關於大語言模型中‘推理’能力的論文頗具震撼力。我在一篇周末長文中解釋了其中的原因(並探討了一種可能的反對意見),以說明爲何大家其實不應感到太過驚訝。”

在加裏·馬庫斯的“周末長文”裏他寫道:“這篇蘋果公司的新論文進一步佐證了我本人的批評觀點:即便最新研發的所謂‘推理模型’已經迭代超越 o1 版本,但在漢諾塔等經典問題上,它們依然無法實現分布外可靠推理。對於那些寄希望於‘推理能力’或‘推理時計算’能讓大語言模型重回正軌、擺脫單純規模擴張卻屢屢失敗(始終無法產出配得上‘GPT-5’名號的技術突破)的研究者而言,這無疑是個壞消息。”

圖 | 加裏·馬庫斯(Gary Marcus)發在個人網站上的“周末長文”(來源:

那麼,這到底是“壞消息”還是“好消息”,先從蘋果這篇論文的詳情說起。

可以完成多達 100 個正確動作,卻無法給出超過 5 步的正確操作

研究中,本次來自蘋果的研究團隊發現了三種不同的推理模式:在低復雜度任務中,標準大語言模型的表現優於大型推理模型;在中等復雜度任務中,大型推理模型表現更加出色;而在高復雜度任務中,兩類模型均無法有效完成任務。

隨着問題接近臨界復雜度,推理所需的努力反而出現了反直覺式的減少,這表明大型推理模型在計算規模的擴展上可能存在一種固有上限。

研究團隊表示,這些見解對有關大型推理模型能力的主流假設提出了挑戰,並表明當前方法可能在實現可泛化推理上存在根本性障礙。

最值得注意的是,研究團隊觀察到了大型推理模型在執行精確計算方面的局限性。例如,當爲模型提供數學益智遊戲漢諾塔的求解算法時,它們在這個問題上的性能並沒有提高。

此外,對模型首次失誤步驟的深入分析揭示了令人意外的行爲模式。例如,模型可以在漢諾塔中完成多達 100 個正確的動作,但在邏輯推理遊戲渡河謎題中卻無法給出超過 5 步的正確操作。

總的來說,研究團隊認爲這篇論文既凸顯了現有大型推理模型的優勢,也揭示了其局限性,主要研究結論有以下五個:

其一,研究團隊對當前大型推理模型在既定數學基準上的評估範式提出質疑,並利用算法謎題環境設計了一個可控實驗測試平台。

其二,研究團隊的實驗表明,即使是最先進的大型推理模型(如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)也依然未能發展出可泛化的問題解決能力。在不同環境中,當問題復雜度超過一定閾值時,其準確率最終會降至零。

其三,研究團隊發現大型推理模型在推理能力上存在一個與問題復雜度相關的擴展極限,這一點可以從達到某個復雜度點後思維 token 數量呈現反直覺的下降趨勢中得到證實。

其四,研究團隊對基於最終準確率的當前評估範式提出質疑,分析顯示隨着問題復雜度增加,與錯誤解相比,正確解在推理過程中出現在更靠後的位置。

其五,研究團隊揭示了大型推理模型在執行精確計算能力方面的驚人局限,包括它們無法從顯式算法中獲益,以及在不同謎題類型中推理的不一致性等。

大型推理模型的自我修正能力有限

據了解,大型推理模型——是由大語言模型衍生出專門針對推理任務優化的新變體。

這些模型屬於新型技術產物,其核心特徵在於獨特的“思維”機制,例如具備自我反思能力的思維鏈(CoT,Chain-of-Thought),並在多項推理基準測試中展現出卓越性能。

這些模型的湧現,標志着大語言模型處理復雜推理與解決問題的方式可能出現了範式轉變。有研究者認爲,這代表着向更通用的人工智能能力邁出了重要一步。

盡管已經存在這些觀點和性能進步,但大型推理模型的基本優勢和局限性仍未得到充分理解。一個仍未得到解答的關鍵問題是:這些大型推理模型是否具備泛化推理能力?還是它們只是在利用不同形式的模式匹配?

隨着問題復雜度的增加,它們的性能會如何變化?在給定相同推理 token 計算預算的情況下,它們與不具備“思考”機制的標準大語言模型相比表現到底如何?

最重要的是,當前推理方法的固有局限性是什麼?要實現更強大的推理能力可能需要哪些改進?

研究團隊認爲,當前評估範式的局限性導致人們缺乏對於這些問題的系統性分析。現有評估主要側重於既定的數學基準和編碼基準。這些基準固然具備一定價值,但是往往存在數據污染問題,而且無法在不同場景和復雜度下提供可控的實驗條件。

爲了更嚴格地理解這些模型的推理行爲,研究團隊認爲需要一個能夠進行受控實驗的環境。

爲此,他們並沒有採用類似於數學題這樣的標準基準,而是採用了可控的謎題環境,即通過在保留核心邏輯的同時調整謎題元素,以便能夠系統地改變復雜度,並能檢查解決方案過程和內部推理過程。

(來源:資料圖)

這些謎題具有以下特點:

(1)能夠提供對於復雜度的精細控制;

(2)避免現有基準中常見的污染;

(3)僅需依賴明確給定的規則,強調算法化推理能力;

(4)支持基於模擬器的嚴格評估,能夠實現精確的解決方案檢查和詳細的故障分析。

通過實證研究,他們揭示了關於當前大型推理模型的幾個關鍵發現:

首先,盡管大型推理模型通過強化學習能夠學習復雜的自我反思機制,但它們未能爲規劃任務開發出可泛化的問題解決能力,在超過一定的復雜度閾值後,性能會降至零。

其次,研究團隊在等效推理計算下對大型推理模型和標準大模型的比較揭示了三種不同的推理機制。

第一種機制是:對於更簡單、組合性較低的問題,標準大模型表現出更高的效率和準確性。

第二種機制是:隨着問題復雜度的適度增加,大型推理模型獲得了優勢。

第三種機制是:當問題隨着組合深度的增加而變得復雜時,兩類模型都經歷了徹頭徹尾的性能崩潰。

(來源:資料圖)

值得注意的是,在接近這一失效臨界點時,盡管大型推理模型的運行遠未達到生成長度限制,但隨着問題復雜度的增加,它們開始減少推理投入(以推理時的 tokens 數量衡量)。

(來源:資料圖)

這表明,大型推理模型的推理能力存在一個根本性限制:其推理時間會隨着問題復雜度的增長而顯著增加。

此外,通過對中間推理軌跡的分析,研究團隊發現了與問題復雜度相關的規律性現象,即在較簡單的問題中,推理模型往往能快速找到錯誤解,但卻仍會低效地繼續探索錯誤選項,這種現象便是人們常說的“過度思考”。

在中等復雜度的問題中,模型需要經過對大量錯誤路徑的廣泛探索後,才能找到正確解。而超過一定的復雜度閾值,模型完全無法找到正確解。

北京郵電大學副教授白婷告訴 DeepTech,跟人類思維方式相近,對於復雜問題,雖然不知道什麼是正確的答案,但是很多時候知道什麼是不正確的。具體而言,這跟求解空間大小有關係,簡單問題的求解空間因邏輯鏈條簡短、特徵匹配度高,正確解往往天然處於思維路徑的前端,而復雜問題的解空間因涉及多維度變量耦合、邏輯層級嵌套而呈現指數級膨脹,求解空間龐大,客觀上表現爲思維序列中的相對後置性。

推理模型的“思維”內部發生了什麼?

研究中,大多數實驗都是在推理模型及對應的非推理模型上進行的,例如 Claude 3.7 Sonnet(有推理/無推理)和 DeepSeek-R1/V3。研究團隊選擇這些模型是因爲與 OpenAI 的 o 系列等模型不同的是,它們允許訪問思維 token。

對於每個謎題實例,研究團隊生成 25 個樣本,並報告了每個模型的平均性能。

爲了更深入地了解推理模型的思考過程,研究團隊對它們的推理痕跡進行了細致的分析。

期間,他們通過謎題實驗環境的構建,實現了對模型最終答案之外的深度解析,從而能夠對其生成的推理軌跡(即“思考過程”)進行更精細的觀測與分析。

具體來說,他們借助謎題模擬器,對模型思維過程中探索的中間解進行了提取與分析。

隨後,他們考察了這些中解的模式和特徵、相對於推理過程中順序位置的正確性,以及這些模式如何隨着問題復雜度的增加而演變。

對於這一分析,研究團隊重點關注了 Claude 3.7 Sonnet 推理模型在謎題組實驗中產生的推理痕跡。

對於痕跡中確定的每個中間解法,研究團隊記錄了以下內容:(1)其在推理軌跡中的相對位置(按總思維長度歸一化),(2)經研究團隊的謎題模擬器驗證的其正確性,(3)相應問題的復雜度。

這使得研究團隊能夠描述整個推理過程中解決方案形成的進展和準確性。

lgf2esRhQ8D8S5CgvuCS4e48OS2oxOtufupMh8Dx.png

研究團隊發現,對於更簡單的問題,推理模型通常會在思考早期找到正確解,但隨後會繼續探索不正確的解決方法。

與正確解(綠色)相比,錯誤解(紅色)的分布明顯向思維鏈末端偏移。隨着問題復雜程度適度增加,這一趨勢發生逆轉:模型首先探索錯誤解,且大多在思考後期才得出正確解。這一次,與正確解(綠色)相比,錯誤解(紅色)的分布更向下偏移。

最後,對於復雜度更高的問題,模型開始出現崩潰現象,這意味着模型在思考過程中無法生成任何正確解。

下圖呈現了在漢諾塔環境中,對思維序列分段(區間)內解的準確性進行的補充分析。

n9VEKux2mllIbnTW6RTGNTE8mxgwiElcJwe7Twum.png

可以觀察到,對於較簡單的問題(較小的 N 值),隨着思考的推進,解決方案的準確性往往會下降或波動,這爲過度思考現象提供了進一步的證據。

然而,對於更復雜的問題,這一趨勢會發生變化——解決方案的準確性會隨着思考的推進而提高,直至達到某個閾值。超過這個復雜度閾值,在“崩潰模式”下,模型的準確率爲零。

白婷告訴 DeepTech,模型在復雜問題中需要多次推理,在一直沒有正確解的前提下,模型推理機制中有可能採用了多次迭代推理生成效率優化策略,或許是防止迭代過多的一種資源保護策略。因此,本次論文中的發現需要從模型實現層面去進行細致的分析和驗證。

白婷指出,大模型的推理過程本質上是記憶模式的調用也是有可能的。 對於 DeepSeek-R1、o3-mini 這類模型,其表現高度依賴訓練數據中記憶模式的覆蓋範圍,當問題復雜度突破記憶模式的覆蓋閾值(如本次蘋果研究團隊設計的可控謎題環境),模型便陷入 “零準確率” 狀態。

雖然本次謎題環境允許對問題復雜度進行細粒度控制的受控實驗,但它們僅代表推理任務的一小部分,可能無法捕捉到現實世界或知識密集型推理問題的多樣性。

需要指出的是,本研究主要基於黑箱 API 訪問封閉的前沿大推理模型,這一限制使研究團隊無法分析其內部狀態或架構組件。

此外,使用確定性謎題模擬器時,研究團隊假設推理可以一步一步地得到完美驗證。然而,在結構化程度較低的領域,這種精確的驗證可能難以實現,從而限制了該分析方法向更廣泛推理場景的遷移。

總的來說,研究團隊通過可控的解謎環境,從問題復雜度的角度考察了前沿大型推理模型。這一成果揭示了當前模型的局限性:即盡管它們擁有復雜的自我反思機制,但這些模型在超過特定復雜度閾值後,仍然無法發展出可泛化的推理能力。研究團隊認爲,本次成果或許能爲研究這些模型的推理能力鋪平道路。

查看原文
本頁面內容僅供參考,非招攬或要約,也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)