Appleの新しい論文は、DeepSeek-R1の精度クラッシュを分析しています

DeepSeek-R1 モデルを使用したことがある人は、その答えを出す前の思考過程に馴染みがあるでしょう。これは、DeepSeek-R1 を含む大型推論モデル(LRM、Large Reasoning Model)が高く評価されている理由の一つです。

しかし、Appleの6人の研究者からなるチームはこれに疑問を呈しました。 研究チームは、モデルにさまざまなパズルを解いてもらうことで、最先端の大規模推論モデルであるDeepSeek-R1、o3-mini、Claude-3.7-Sonnet-Thinkingの精度が、ある複雑さの閾値を超えた後に全面的に崩壊することを発見しました。

!

図表 | 関連論文(出典:

注目すべきは、Appleの機械学習研究の上級ディレクター、サミー・ベンジオ(Samy Bengio)がこの論文の共同著者であることです。彼はチューリング賞受賞者であるジョシュア・ベンジオ(Yoshua Bengio)の弟であり、Google Brainチームの初期メンバーの一人でもありました。

!

図表 | 関連論文の著者6名、右から2番目がSamy Bengio氏(出典:データマップ)

Xのネチズンは、Appleはゲイリー・マーカス(ゲイリー・マーカス)であると結論付け、実際には、ゲイリー・マーカス自身もAppleの論文を肯定するためにLinkedInに投稿しました。 彼は次のように書いています:「大規模な言語モデルで「推論」する能力に関するAppleの最新の論文は非常に印象的です。 長い週末の記事では、なぜあなたがあまり驚かないようにすべきなのかを示すために、その理由を説明します(そして、考えられる反論を探ります)。 ”

ゲイリー・マーカス(Gary Marcus)の「Long Weekend Article」で、彼はこう書いている:「この新しいアップルの論文は、私自身の批判をさらに裏付けている。新しく開発されたいわゆる「推論モデル」がO1バージョンを繰り返し上回っているにもかかわらず、ハノイの塔のような古典的な問題について、配布されていない信頼性の高い推論をまだ達成できていない」。 これは、「推論パワー」や「推論時間計算」が大規模な言語モデルを軌道に戻し、単純なスケールアップや度重なる失敗から脱却することを期待している研究者にとっては悪いニュースです(「GPT-5」の名にふさわしい技術的ブレークスルーは決して生まれません)。 ”

!

図 | ギャリー・マーカス(Gary Marcus)が個人ウェブサイトに投稿した「週末の長文」(出典:

では、これが「悪いニュース」なのか「良いニュース」なのか、まずはAppleの論文の詳細から始めましょう。

は最大 100 の正しいアクションを実行できますが、5 つ以上の正しい手順を示すことはできません

この研究では、Appleの研究チームは3つの異なる推論モデルを発見しました。低複雑性のタスクでは、標準の大規模言語モデルが大規模推論モデルよりも優れていました。 中程度の複雑さのタスクでは、大規模な推論モデルのパフォーマンスが向上します。 ただし、複雑度の高いタスクでは、どちらのタイプのモデルもタスクを効果的に完了できません。

問題が臨界の複雑さに近づくと、推論に必要な労力は直感に反して減少し、大規模な推論モデルには計算のスケーリングに固有の上限がある可能性があることを示唆しています。

研究チームによると、これらの洞察は、大規模な推論モデルの能力に関する一般的な仮定に挑戦し、現在の方法が一般化可能な推論を達成するための基本的な障壁を持っている可能性があることを示唆しています。

最も注目すべきは、研究チームが大規模な推論モデルが正確な計算を実行する際の限界を観察したことです。 たとえば、モデルに数学パズルゲーム「ハノイの塔」の解法アルゴリズムが提供されたとき、この問題に対するパフォーマンスは向上しませんでした。

さらに、モデルの最初の失敗したステップを詳細に分析したところ、驚くべき行動パターンが明らかになりました。 たとえば、モデルはハノイの塔で最大 100 回の正しい動きを完了することができますが、論理推論ゲームである River Crossing Puzzle では 5 回を超える正しい動きをすることはできません。

全体として、研究チームはこの論文が既存の大規模推論モデルの利点を際立たせると同時に、その限界を明らかにしていると考えています。主な研究結論は以下の5つです:

その一、研究チームは現在の大規模推論モデルの既定の数学基準における評価パラダイムに疑問を呈し、アルゴリズムパズル環境を利用して制御された実験テストプラットフォームを設計しました。

次に、研究チームの実験では、最先端の大規模推論モデル(o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinkingなど)でさえ、一般化可能な問題解決能力をまだ開発できていないことが示されています。 さまざまな環境では、問題の複雑さが特定のしきい値を超えると、その精度は最終的にゼロに低下します。

その3、研究チームは、大規模推論モデルには、問題の複雑さに関連する推論能力の拡張限界が存在することを発見しました。このことは、ある複雑度のポイントに達した後、思考トークンの数が逆直感的な下降傾向を示すことで確認できます。

第四に、研究チームは最終的な精度に基づく現在の評価パラダイムに疑問を投げかけ、分析の結果、問題の複雑さが増すにつれて、間違った解決策よりも正しい解決策が推論プロセスの後半に現れることが示されました。

第五に、研究チームは、大規模な推論モデルが正確な計算を実行する能力に驚くべき限界があることを明らかにしました。これには、明示的なアルゴリズムの恩恵を受けられないことや、異なるパズルタイプ間での推論の不一致などがあります。

大型推理モデルの自己修正能力は限られている

大型推論モデルは、大規模言語モデルから派生した推論タスクに特化して最適化された新しい変種です。

これらのモデルは新しい技術製品であり、その主要な特徴は、自己反省的な思考の連鎖(CoT)などの独自の「思考」メカニズムであり、複数の推論ベンチマークで優れたパフォーマンスを示しています。

これらのモデルの出現は、大規模な言語モデルが複雑な推論と問題解決に対処する方法にパラダイムシフトの可能性を示しています。 一部の研究者は、これはより一般的なAI機能に向けた重要なステップであると考えています。

これらの視点とパフォーマンスの進歩にもかかわらず、大規模な推論モデルの基本的な利点と制限はまだ完全には理解されていません。 未解決の重要な問題は、これらの大規模な推論モデルに一般化された推論機能があるかということです。 それとも、異なる形式のパターンマッチングを活用しているだけなのでしょうか?

問題の複雑さが増すにつれて、パフォーマンスはどのように変化しますか? 推論トークンの計算バジェットが同じ場合、"think" メカニズムを持たない標準的な大規模言語モデルとどのように比較されますか?

最も重要なことは、現在の推論方法の固有の限界は何ですか?より強力な推論能力を実現するためには、どのような改善が必要ですか?

研究チームは、現在の評価パラダイムの限界が、これらの問題の体系的な分析の欠如につながると主張しています。 既存の評価は、主に確立された数学的およびコーディングのベンチマークに焦点を当てています。 これらのベンチマークには一定の価値がありますが、多くの場合、データ汚染に悩まされ、さまざまなシナリオや複雑さに対して制御可能な実験条件を提供することはできません。

これらのモデルの推論振る舞いをより厳密に理解するためには、制御された実験が可能な環境が必要だと研究チームは感じました。

そのために、数学の問題のような標準的なベンチマークを使用するのではなく、制御されたパズル環境、つまり、コアロジックを保持したままパズル要素を微調整することで、複雑さを体系的に変化させ、解答プロセスと内部推論プロセスを調べることができるようにしました。

!

(出典:データマップ)

これらの謎には以下の特徴があります:

(1)複雑度に対する精密な制御を提供できる;

(2)既存のベンチマークにおける一般的な汚染を避ける;

(3)明示されたルールにのみ依存し、アルゴリズム的推論能力を強調する;

(4)エミュレーターに基づく厳密な評価をサポートし、正確なソリューションチェックと詳細な障害分析を実現します。

実証研究を通じて、彼らは現在の大規模推論モデルに関するいくつかの重要な発見を明らかにしました。

まず、大規模な推論モデルは強化学習を通じて複雑な自己反省メカニズムを学習できますが、計画タスクのための一般化可能な問題解決能力を開発できず、特定の複雑さのしきい値を超えるとパフォーマンスがゼロに低下します。

次に、研究チームは、同等推論計算の下で大規模推論モデルと標準大モデルの比較を行い、三つの異なる推論メカニズムを明らかにしました。

第一のメカニズムは、より単純で組み合わせの少ない問題に対して、標準の大規模モデルがより高い効率と正確性を示すということです。

第二のメカニズムは、問題の複雑さが適度に増加するにつれて、大規模推論モデルが優位性を得ることです。

第三のメカニズムは、問題が組み合わせの深さが増すにつれて複雑になると、両方のモデルが完全に性能が崩壊するということです。

!

(出典:データマップ)

問題の複雑さが増すにつれて、大規模な推論モデルは、問題の複雑さが増すにつれて世代の長さの制限に達するにはほど遠い場合でも、推論の労力 (推論時のトークンの数で測定) を減らし始めることに注意することが重要です。

!

(出典:データマップ)

これは、大規模推論モデルの推論能力に根本的な制限があることを示しています:その推論時間は問題の複雑さが増すにつれて著しく増加します。

さらに、研究チームは、中間推論の軌跡の分析を通じて、問題の複雑さに関連する規則的な現象、つまり、単純な問題では、推論モデルが間違った解決策をすばやく見つけることができることがよくありますが、それでも非効率的に間違ったオプションを探索し続けることを発見しました。

中程度の複雑さの問題では、モデルは多くの誤ったパスを広範に探索した後に正しい解を見つける必要があります。しかし、一定の複雑さの閾値を超えると、モデルは正しい解を全く見つけることができません。

北京郵電大学のBai Ting准教授は、人間の考え方と同様に、複雑な問題に対しても、何が正しい答えかわからないが、何が間違っているかを知っていることが多いとDeepTechに語った。 具体的には、これは解空間のサイズに関連しています、なぜなら、単純な問題の解空間は短く、特徴のマッチング度が高いため、正しい解決策はしばしば自然に思考経路のフロントエンドにありますが、複雑な問題の解決策空間は多次元変数の結合と論理レベルのネストにより指数関数的に拡大し、解決策空間は巨大であり、これは思考シーケンスの相対的な積極性として客観的に現れます。

推論モデルの「思考」の内部で何が起こっているのか?

この研究では、ほとんどの実験が推論モデルと、Claude 3.7 Sonnet(推論あり/推論なし)やDeepSeek-R1/V3などの非推論モデルで行われました。 研究チームがこれらのモデルを選んだのは、OpenAIのOシリーズのようなモデルとは異なり、Thinkingトークンにアクセスできるからです。

各ミステリーインスタンスについて、研究チームは25のサンプルを生成し、各モデルの平均性能を報告しました。

推論モデルの思考プロセスをより深く理解するために、研究チームはそれらの推論の痕跡を詳細に分析しました。

この間、パズル実験環境の構築を通じて、モデルの最終的な答えを超えた詳細な分析を実現し、それによって生成される推論の軌跡(つまり「思考過程」)について、より詳細な観察と分析を行うことができました。

具体的には、彼らはパズルシミュレーターを利用して、モデルの思考プロセスで探索された中間解を抽出して分析しました。

次に、これらのソリューションのパターンと特性、推論プロセスの逐次位置に対するそれらの正確性、および問題の複雑さが増すにつれてこれらのパターンがどのように進化するかを調べます。

この分析において、研究チームはClaude 3.7 Sonnet推論モデルがパズルグループ実験で生成した推論の痕跡に注目しました。

トレースで特定された各中間解について、研究チームは、(1)推論軌道における相対的な位置(思考全体の長さで正規化)、(2)研究チームのパズルシミュレータによって検証されたその正しさ、および(3)対応する問題の複雑さを記録しました。

これにより、研究チームは推論プロセス全体におけるソリューション形成の進展と正確性を説明することができる。

! lgf2esRhQ8D8S5CgvuCS4e48OS2oxOtufupMh8Dx.png

研究チームは、より単純な問題に対して、推論モデルが思考の初期段階で正しい解決策を見つけることが多いが、その後不正確な解決策を探し続けることを発見しました。

正しい解決策(緑)と比較して、間違った解決策(赤)の分布は、思考の連鎖の終わりに向かって大幅にシフトします。 この傾向は、問題の複雑さが緩やかに増加すると逆転します: モデルは最初に間違った解決策を探求し、ほとんどの場合、考えるのが遅くて正しい解決策に到達します。 今回は、間違った解(赤)の分布は、正しい解(緑)よりも下向きに歪んでいます。

最後に、より複雑な問題に対して、モデルはクラッシュ現象を示し始めます。これは、モデルが思考過程で正しい解を生成できなくなることを意味します。

下図は、ハノイの塔環境において、思考シーケンスの区間内の解の正確性に関する追加分析を示しています。

! n9VEKux2mllIbnTW6RTGNTE8mxgwiElcJwe7Twum.png

単純な問題(小さな N 値)に対して、思考が進むにつれて解決策の正確性がしばしば低下したり変動したりすることが観察でき、これは過剰思考現象のさらなる証拠を提供します。

しかし、より複雑な問題に関しては、この傾向が変わることがあります。解決策の正確性は思考が進むにつれて向上し、ある閾値に達するまで続きます。この複雑さの閾値を超えると、「クラッシュモード」では、モデルの正確度はゼロになります。

Bai Ting氏はDeepTechに対し、モデルは複雑な問題で複数の推論が必要であり、正しい解決策がないという前提の下では、モデルの推論メカニズムが複数の反復を使用して効率最適化戦略を生成する可能性があり、これは反復が多すぎるのを防ぐためのリソース保護戦略である可能性があると述べました。 したがって、この論文の調査結果は、モデル実装のレベルから慎重に分析および検証する必要があります。

Bai Ting氏は、大規模モデルの推論プロセスが本質的にメモリパターンの呼び出しである可能性もあると指摘しました。 DeepSeek-R1やo3-miniなどのモデルでは、その性能は学習データにおけるメモリモードのカバレッジに大きく依存し、問題の複雑さがメモリモードのカバレッジ閾値(Appleの研究チームが設計した制御可能なパズル環境など)を超えると、モデルは「精度ゼロ」の状態に陥ります。

今回の謎解き環境は、問題の複雑さを細かく制御することができる制御実験を許可していますが、それらは推論タスクのほんの一部を表しているに過ぎず、現実世界や知識集約型の推論問題の多様性を捉えることができない可能性があります。

この研究は、主にクローズドで最先端の大規模推論モデルへのブラックボックスAPIアクセスに基づいており、研究チームが内部状態やアーキテクチャコンポーネントを分析するのを妨げる制限があることを指摘することが重要です。

また、決定論的パズルシミュレータを用いたところ、研究チームは推論を段階的に完璧に検証できるという仮説を立てました。 ただし、構造化されていないドメインでは、この正確な検証を実現するのが難しく、分析方法の移行がより広範な推論シナリオに制限される可能性があります。

全体として、研究チームは、制御可能なパズル解決環境を通じて、問題の複雑さの観点から最先端の大規模推論モデルを検討しました。 この結果は、現在のモデルの限界を明らかにしています:複雑な自己反省メカニズムにもかかわらず、これらのモデルは特定の複雑さのしきい値を超えて一般化可能な推論スキルを開発できません。 研究チームは、この結果がこれらのモデルの推論能力を研究する道を開く可能性があると考えています。

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)