Вірю, що тим, хто використовував модель DeepSeek-R1, не є незнайомим процес роздумів перед наданням відповіді, і це одна з причин, чому великі моделі міркування (LRM, Large Reasoning Model), включаючи DeepSeek-R1, користуються великою повагою.
Однак команда з шести дослідників компанії Apple поставила це під сумнів. Дослідницька група виявила, що передові великі моделі міркування, такі як DeepSeek-R1, o3-mini та Claude-3.7-Sonnet-Thinking, демонструють повний крах точності після перевищення певного порогу складності.
!
Зображення | Пов’язані статті (джерело:
Примітно, що Самі Бенджіо, старший директор Apple з досліджень машинного навчання, є співавтором статті. Він не тільки є молодшим братом лауреата премії Тюрінга Йошуа Бенджіо, але й був одним із перших членів команди Google Brain.
!
Малюнок | Шестеро авторів відповідної статті, другий справа – Самі Бенгіо (Samy Bengio) (джерело: ілюстрація)
Користувач мережі X дійшов висновку, що Apple — це Гері Маркус (Gary Marcus), насправді сам Гері Маркус також опублікував пост у LinkedIn, щоб підтвердити документ Apple. Він написав: «Остання стаття Apple про здатність «міркувати» у великих мовних моделях вражає. У довгій статті вихідного дня я пояснюю чому (і досліджую можливе заперечення), щоб показати, чому не варто надто дивуватися. ”
У статті Гері Маркуса «Довгі вихідні» він написав: «Цей новий документ Apple ще більше підтримує мою власну критику: навіть незважаючи на те, що нещодавно розроблені так звані «моделі логічного висновку» ітеративно перевершили версію O1, вони все ще не в змозі досягти надійних міркувань щодо класичних проблем, таких як Ханойська вежа». Це погана новина для дослідників, які сподіваються, що «потужність висновків» або «обчислення за часом висновку» повернуть великі мовні моделі на правильний шлях, відходячи від простого масштабування та повторюваних відмов (ніколи не створюючи технологічних проривів, гідних назви «GPT-5»). ”
!
Малюнок | Пост Гарі Маркуса "Weekend Long Post" опублікований на його особистому сайті (Джерело: Джерело:
Отже, це все ж "погана новина" чи "добра новина"? Спочатку розглянемо деталі цієї статті від Apple.
може виконати до 100 правильних дій, але не може дати більше 5 правильних кроків
У дослідженні дослідницька група з Apple виявила три різні моделі висновків: у завданнях низької складності стандартна модель великої мови перевершувала модель великого висновку; У задачах середньої складності моделі великого логічного висновку працюють краще. Однак у завданнях високої складності жоден тип моделі не може ефективно виконати поставлене завдання.
У міру того, як проблема наближається до критичної складності, зусилля, необхідні для висновування, зменшуються парадоксально, припускаючи, що великі моделі логічного висновку можуть мати внуману верхню межу масштабування в обчислювальному масштабі.
Дослідницька команда повідомила, що ці висновки ставлять під сумнів основні припущення щодо можливостей великих моделей міркування і вказують на те, що поточні методи можуть мати фундаментальні перешкоди для досягнення узагальненого міркування.
Найбільш варто зазначити, що дослідницька команда спостерігала обмеження великих моделей висновків у виконанні точних обчислень. Наприклад, коли моделі надавали алгоритм розв'язання математичної головоломки Ханойська вежа, їхня продуктивність у цій задачі не покращилася.
Крім того, глибокий аналіз перших помилок моделі виявив несподівані поведінкові моделі. Наприклад, модель може виконати до 100 правильних дій у грі Ханойська вежа, але не може надати більше 5 правильних операцій у грі на логічне мислення "Переправа".
Загалом, дослідницька команда вважає, що ця стаття як підкреслює переваги існуючих великих моделей висновків, так і виявляє їх обмеження, основні дослідницькі висновки мають такі п'ять:
По-перше, дослідницька команда поставила під сумнів оцінювальні парадигми сучасних великих моделей міркувань на встановлених математичних стандартах та розробила контрольовану експериментальну платформу для тестування у середовищі алгоритмічних загадок.
По-друге, експерименти дослідницької групи показують, що навіть найбільш просунуті великомасштабні моделі висновків (наприклад, o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) все ще не розвивають узагальнені можливості вирішення проблем. У різних умовах, коли складність задачі перевищує певний поріг, її точність з часом падає до нуля.
По-третє, дослідницька команда виявила, що великі моделі міркувань мають розширене обмеження, пов'язане зі складністю питань, що можна підтвердити спостереженням, що після досягнення певної точки складності кількість токенів мислення демонструє інтуїтивно несподіване зниження.
По-четверте, дослідницька група поставила під сумнів поточну парадигму оцінювання на основі кінцевої точності, і аналіз показав, що зі зростанням складності проблеми правильне рішення з'являється пізніше в процесі міркування, ніж неправильне рішення.
По-п'яте, дослідницька група виявила дивовижні обмеження моделей великих висновків у їхній здатності виконувати точні обчислення, включаючи їхню нездатність отримати вигоду від явних алгоритмів і непослідовність у міркуваннях різних типів головоломок.
Обмежена здатність до самокорекції великих моделей висновків
Відомо, що великі моделі висновків — це новий варіант, що виник із великих мовних моделей і оптимізований спеціально для задач висновку.
Ці моделі є новими технологічними продуктами, і їх основними особливостями є унікальні механізми «мислення», такі як саморефлексивний ланцюг думок (CoT), і продемонстрували чудову продуктивність у багатьох тестах висновків.
Поява цих моделей знаменує собою можливу парадигмальну зміну в способах, якими великі мовні моделі обробляють складні міркування та вирішення проблем. Деякі дослідники вважають, що це є важливим кроком до більш універсальних можливостей штучного інтелекту.
Незважаючи на ці перспективи та прогрес у продуктивності, фундаментальні переваги та обмеження великих моделей висновків все ще не до кінця вивчені. Ключове питання без відповіді: чи мають ці великі моделі висновків узагальнені можливості висновування? Або вони просто використовують різні форми зіставлення зі зразками?
Як змінюватиметься їхня продуктивність із зростанням складності завдань? Як вони показують себе у порівнянні з стандартними великими мовними моделями, які не мають механізму "мислення", за умови однакового бюджету обчислення токенів для міркувань?
Найважливіше, які вроджені обмеження поточного методу міркування? Які вдосконалення можуть знадобитися для досягнення більшої потужності міркування?
Дослідницька група стверджує, що обмеженість поточної парадигми оцінювання призводить до відсутності систематичного аналізу цих питань. Існуючі оцінки зосереджені в основному на встановлених математичних і кодувальних орієнтирах. Хоча ці тести мають певну цінність, вони часто страждають від забруднення даних і не можуть забезпечити контрольовані експериментальні умови для різних сценаріїв і складнощів.
Для більш строгого розуміння міркувальної поведінки цих моделей команда дослідників вважає, що потрібне середовище, здатне проводити контрольовані експерименти.
Для цього, замість використання стандартного еталонного показника, такого як математична задача, вони прийняли контрольоване середовище головоломки, тобто шляхом налаштування елементів головоломки, зберігаючи основну логіку, щоб складність могла систематично змінюватися, а процес вирішення та внутрішній процес міркування могли бути вивчені.
!
(джерело: ілюстративне зображення)
Ці головоломки мають такі характеристики:
(1) Може забезпечити детальний контроль над складністю;
(2) уникати забруднень, які поширені в існуючих еталонах;
(3) Потрібно покладатися лише на чітко задані правила, підкреслюючи здатність алгоритмічного міркування;
(4) Підтримує сувору оцінку на основі емулятора, що дозволяє здійснювати точну перевірку рішень та детальний аналіз збоїв.
За допомогою емпіричного дослідження вони виявили кілька ключових висновків щодо сучасних великих моделей висновків:
По-перше, хоча великі моделі логічного висновку здатні вивчати складні механізми саморефлексії за допомогою навчання з підкріпленням, вони не розвивають узагальнені здібності до вирішення проблем для завдань планування, і їх продуктивність падає до нуля після перевищення певного порогу складності.
По-друге, дослідницька команда в рамках еквівалентного міркування порівняла великі моделі міркування та стандартні великі моделі, що виявило три різні механізми міркування.
Перший механізм полягає в тому, що для простіших, менш комбінованих завдань стандартна велика модель демонструє вищу ефективність і точність.
Другий механізм полягає в тому, що з помірним зростанням складності задач великі моделі міркувань отримують переваги.
Третій механізм полягає в тому, що коли проблема ускладнюється з ростом глибини комбінації, обидва типи моделей зазнають повного краху продуктивності.
!
(джерело: ілюстрація)
Варто зазначити, що, наближаючись до цієї критичної точки виходу з ладу, незважаючи на те, що виконання великих моделей міркування ще не досягло обмеження на довжину генерації, з ростом складності запитів вони починають зменшувати вклад у міркування (вимірюється за кількістю токенів під час міркування).
!
(джерело: ілюстрація)
Це вказує на те, що існує фундаментальне обмеження в здатностях до міркування великих моделей міркування: їхній час міркування суттєво зростає зі збільшенням складності питання.
Крім того, за допомогою аналізу траєкторій проміжних міркувань дослідницька група виявила закономірне явище, пов'язане зі складністю проблеми, тобто в більш простих задачах модель висновку часто може швидко знаходити неправильне рішення, але все одно неефективно продовжувати досліджувати неправильний варіант, який часто називають «надмірним обмірковуванням».
У випадку середньої складності задач, моделі необхідно пройти через широке дослідження великої кількості помилкових шляхів, перш ніж знайти правильне рішення. А при перевищенні певного порогу складності модель зовсім не може знайти правильне рішення.
Бай Тін, доцент Пекінського університету пошти та телекомунікацій, розповів DeepTech, що подібно до людського способу мислення, для складних проблем, хоча вони не знають, яка правильна відповідь, часто вони знають, що є неправильним. Зокрема, це пов'язано з розміром простору рішень, оскільки простір рішень простих задач короткий, а ступінь відповідності ознак висока, правильне рішення часто природно знаходиться на передньому кінці мисленнєвого шляху, тоді як простір рішень складних проблем експоненціально розширюється за рахунок зв'язку багатовимірних змінних і вкладеності логічних рівнів, а простір рішень величезний, що об'єктивно проявляється як відносна позаду в послідовності мислення.
Що відбувається всередині "мислення" модельного інтелекту?
У дослідженні більшість експериментів були проведені на моделях логічного висновку та їхніх аналогах без висновків, таких як Claude 3.7 Sonnet (with inference/without inference) та DeepSeek-R1/V3. Дослідницька група вибрала ці моделі, оскільки, на відміну від таких моделей, як O-серія OpenAI, вони дозволяють отримати доступ до токена Thinking.
Для кожного екземпляра головоломки дослідницька команда згенерувала 25 зразків і повідомила про середню продуктивність кожної моделі.
Щоб глибше зрозуміти процес мислення моделей висновків, дослідницька команда провела детальний аналіз їхніх слідів міркування.
Протягом цього періоду вони досягли глибокого аналізу, що виходить за рамки остаточної відповіді моделі, за допомогою побудови експериментального середовища головоломки, щоб вони могли провести більш детальне спостереження та аналіз траєкторії міркування (тобто «розумового процесу»), породженого нею.
Зокрема, вони за допомогою симулятора головоломок здійснили витяг та аналіз проміжних рішень, які були виявлені під час процесу мислення моделі.
Потім вони розглядають закономірності та характеристики цих рішень, їх правильність щодо послідовної позиції в процесі міркування, а також те, як ці закономірності еволюціонують зі зростанням складності проблеми.
Для цього аналізу дослідницька група зосередилася на слідах висновків, згенерованих моделлю висновків Claude 3.7 Sonnet у групових експериментах із головоломками.
Для кожного проміжного рішення, виявленого в трасі, дослідницька група записала наступне: (1) його взаємне положення в траєкторії міркування (нормалізоване за загальною довжиною думки), (2) його правильність, перевірену симулятором головоломки дослідницької групи, і (3) складність відповідної проблеми.
Це дозволяє дослідницькій команді описати прогрес і точність формування рішень протягом усього процесу міркування.
Дослідницька команда виявила, що для простіших завдань моделі міркувань зазвичай знаходять правильне рішення на ранньому етапі роздумів, але потім продовжують шукати неправильні рішення.
У порівнянні з правильним рішенням (зелений) розподіл неправильного рішення (червоний) значно зміщений до кінця ланцюжка думок. Ця тенденція змінюється в міру помірного зростання складності проблеми: модель спочатку досліджує неправильне рішення, а правильне рішення в основному приходить до нього пізно на стадії роздумів. Цього разу розподіл неправильного розчину (червоний) більш перекошений вниз, ніж правильного розчину (зелений).
Нарешті, для складніших проблем модель починає зазнавати краху, що означає, що модель не може згенерувати жодного правильного розв'язку під час процесу мислення.
На нижньому малюнку представлено додатковий аналіз точності рішень у сегментах (інтервалах) послідовності думок у середовищі Ханойської вежі.
Можна спостерігати, що для простіших проблем (менші значення N) точність рішень зазвичай знижується або коливається в міру просування мислення, що надає подальші докази феномену надмірного мислення.
Однак для більш складних питань ця тенденція може змінитися — точність рішень зростає в міру розвитку думки, поки не досягне певного порогу. Понад цей поріг складності, в режимі «зламу», точність моделі дорівнює нулю.
Бай Тін сказав DeepTech, що модель потребує численних висновків у складних проблемах, і за передумови, що правильного рішення не було, можливо, механізм висновків моделі використовує кілька ітерацій для створення стратегії оптимізації ефективності, яка може бути стратегією захисту ресурсів, щоб запобігти занадто великій кількості ітерацій. Тому висновки в цій роботі потребують ретельного аналізу та верифікації з боку рівня реалізації моделі.
Бай Тін вказував, що також можливо, що процес міркування великих моделей є, по суті, викликом шаблонів пам'яті. Для таких моделей, як DeepSeek-R1 і o3-mini, їх продуктивність сильно залежить від охоплення режиму пам'яті в тренувальних даних, і коли складність проблеми перевищує поріг покриття режиму пам'яті (наприклад, кероване середовище головоломки, розроблене дослідницькою групою Apple), модель потрапляє в стан «нульової точності».
Хоча це середовище головоломок дозволяє проводити тонкі контрольовані експерименти над складністю проблеми, вони представляють лише невелику частину завдання міркування і можуть не охопити різноманітність реальних або наукомістких проблем міркування.
Важливо зазначити, що це дослідження в першу чергу ґрунтується на доступі чорного ящика API до закритих, передових моделей великого висновку, обмеження, яке не дозволяє дослідницькій групі аналізувати її внутрішній стан або архітектурні компоненти.
Крім того, при використанні детерміністичного симулятора головоломки дослідницька група висунула гіпотезу, що міркування можна ідеально перевіряти крок за кроком. Однак у менш структурованих областях такої точної перевірки може бути важко досягти, обмежуючи міграцію методу аналізу до ширшого спектру сценаріїв висновків.
Загалом дослідницька група розглянула передові великомасштабні моделі висновків з точки зору складності проблеми через контрольоване середовище для вирішення головоломок. Цей результат виявляє обмеженість сучасних моделей: незважаючи на складні механізми саморефлексії, ці моделі не здатні розвивати навички узагальненого висновку за межами певного порогу складності. Дослідницька група вважає, що цей результат може прокласти шлях для вивчення розумових можливостей цих моделей.
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Аналіз нової статті Apple щодо проблеми падіння точності DeepSeek-R1
Вірю, що тим, хто використовував модель DeepSeek-R1, не є незнайомим процес роздумів перед наданням відповіді, і це одна з причин, чому великі моделі міркування (LRM, Large Reasoning Model), включаючи DeepSeek-R1, користуються великою повагою.
Однак команда з шести дослідників компанії Apple поставила це під сумнів. Дослідницька група виявила, що передові великі моделі міркування, такі як DeepSeek-R1, o3-mini та Claude-3.7-Sonnet-Thinking, демонструють повний крах точності після перевищення певного порогу складності.
!
Зображення | Пов’язані статті (джерело:
Примітно, що Самі Бенджіо, старший директор Apple з досліджень машинного навчання, є співавтором статті. Він не тільки є молодшим братом лауреата премії Тюрінга Йошуа Бенджіо, але й був одним із перших членів команди Google Brain.
!
Малюнок | Шестеро авторів відповідної статті, другий справа – Самі Бенгіо (Samy Bengio) (джерело: ілюстрація)
Користувач мережі X дійшов висновку, що Apple — це Гері Маркус (Gary Marcus), насправді сам Гері Маркус також опублікував пост у LinkedIn, щоб підтвердити документ Apple. Він написав: «Остання стаття Apple про здатність «міркувати» у великих мовних моделях вражає. У довгій статті вихідного дня я пояснюю чому (і досліджую можливе заперечення), щоб показати, чому не варто надто дивуватися. ”
У статті Гері Маркуса «Довгі вихідні» він написав: «Цей новий документ Apple ще більше підтримує мою власну критику: навіть незважаючи на те, що нещодавно розроблені так звані «моделі логічного висновку» ітеративно перевершили версію O1, вони все ще не в змозі досягти надійних міркувань щодо класичних проблем, таких як Ханойська вежа». Це погана новина для дослідників, які сподіваються, що «потужність висновків» або «обчислення за часом висновку» повернуть великі мовні моделі на правильний шлях, відходячи від простого масштабування та повторюваних відмов (ніколи не створюючи технологічних проривів, гідних назви «GPT-5»). ”
!
Малюнок | Пост Гарі Маркуса "Weekend Long Post" опублікований на його особистому сайті (Джерело: Джерело:
Отже, це все ж "погана новина" чи "добра новина"? Спочатку розглянемо деталі цієї статті від Apple.
може виконати до 100 правильних дій, але не може дати більше 5 правильних кроків
У дослідженні дослідницька група з Apple виявила три різні моделі висновків: у завданнях низької складності стандартна модель великої мови перевершувала модель великого висновку; У задачах середньої складності моделі великого логічного висновку працюють краще. Однак у завданнях високої складності жоден тип моделі не може ефективно виконати поставлене завдання.
У міру того, як проблема наближається до критичної складності, зусилля, необхідні для висновування, зменшуються парадоксально, припускаючи, що великі моделі логічного висновку можуть мати внуману верхню межу масштабування в обчислювальному масштабі.
Дослідницька команда повідомила, що ці висновки ставлять під сумнів основні припущення щодо можливостей великих моделей міркування і вказують на те, що поточні методи можуть мати фундаментальні перешкоди для досягнення узагальненого міркування.
Найбільш варто зазначити, що дослідницька команда спостерігала обмеження великих моделей висновків у виконанні точних обчислень. Наприклад, коли моделі надавали алгоритм розв'язання математичної головоломки Ханойська вежа, їхня продуктивність у цій задачі не покращилася.
Крім того, глибокий аналіз перших помилок моделі виявив несподівані поведінкові моделі. Наприклад, модель може виконати до 100 правильних дій у грі Ханойська вежа, але не може надати більше 5 правильних операцій у грі на логічне мислення "Переправа".
Загалом, дослідницька команда вважає, що ця стаття як підкреслює переваги існуючих великих моделей висновків, так і виявляє їх обмеження, основні дослідницькі висновки мають такі п'ять:
По-перше, дослідницька команда поставила під сумнів оцінювальні парадигми сучасних великих моделей міркувань на встановлених математичних стандартах та розробила контрольовану експериментальну платформу для тестування у середовищі алгоритмічних загадок.
По-друге, експерименти дослідницької групи показують, що навіть найбільш просунуті великомасштабні моделі висновків (наприклад, o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) все ще не розвивають узагальнені можливості вирішення проблем. У різних умовах, коли складність задачі перевищує певний поріг, її точність з часом падає до нуля.
По-третє, дослідницька команда виявила, що великі моделі міркувань мають розширене обмеження, пов'язане зі складністю питань, що можна підтвердити спостереженням, що після досягнення певної точки складності кількість токенів мислення демонструє інтуїтивно несподіване зниження.
По-четверте, дослідницька група поставила під сумнів поточну парадигму оцінювання на основі кінцевої точності, і аналіз показав, що зі зростанням складності проблеми правильне рішення з'являється пізніше в процесі міркування, ніж неправильне рішення.
По-п'яте, дослідницька група виявила дивовижні обмеження моделей великих висновків у їхній здатності виконувати точні обчислення, включаючи їхню нездатність отримати вигоду від явних алгоритмів і непослідовність у міркуваннях різних типів головоломок.
Обмежена здатність до самокорекції великих моделей висновків
Відомо, що великі моделі висновків — це новий варіант, що виник із великих мовних моделей і оптимізований спеціально для задач висновку.
Ці моделі є новими технологічними продуктами, і їх основними особливостями є унікальні механізми «мислення», такі як саморефлексивний ланцюг думок (CoT), і продемонстрували чудову продуктивність у багатьох тестах висновків.
Поява цих моделей знаменує собою можливу парадигмальну зміну в способах, якими великі мовні моделі обробляють складні міркування та вирішення проблем. Деякі дослідники вважають, що це є важливим кроком до більш універсальних можливостей штучного інтелекту.
Незважаючи на ці перспективи та прогрес у продуктивності, фундаментальні переваги та обмеження великих моделей висновків все ще не до кінця вивчені. Ключове питання без відповіді: чи мають ці великі моделі висновків узагальнені можливості висновування? Або вони просто використовують різні форми зіставлення зі зразками?
Як змінюватиметься їхня продуктивність із зростанням складності завдань? Як вони показують себе у порівнянні з стандартними великими мовними моделями, які не мають механізму "мислення", за умови однакового бюджету обчислення токенів для міркувань?
Найважливіше, які вроджені обмеження поточного методу міркування? Які вдосконалення можуть знадобитися для досягнення більшої потужності міркування?
Дослідницька група стверджує, що обмеженість поточної парадигми оцінювання призводить до відсутності систематичного аналізу цих питань. Існуючі оцінки зосереджені в основному на встановлених математичних і кодувальних орієнтирах. Хоча ці тести мають певну цінність, вони часто страждають від забруднення даних і не можуть забезпечити контрольовані експериментальні умови для різних сценаріїв і складнощів.
Для більш строгого розуміння міркувальної поведінки цих моделей команда дослідників вважає, що потрібне середовище, здатне проводити контрольовані експерименти.
Для цього, замість використання стандартного еталонного показника, такого як математична задача, вони прийняли контрольоване середовище головоломки, тобто шляхом налаштування елементів головоломки, зберігаючи основну логіку, щоб складність могла систематично змінюватися, а процес вирішення та внутрішній процес міркування могли бути вивчені.
!
(джерело: ілюстративне зображення)
Ці головоломки мають такі характеристики:
(1) Може забезпечити детальний контроль над складністю;
(2) уникати забруднень, які поширені в існуючих еталонах;
(3) Потрібно покладатися лише на чітко задані правила, підкреслюючи здатність алгоритмічного міркування;
(4) Підтримує сувору оцінку на основі емулятора, що дозволяє здійснювати точну перевірку рішень та детальний аналіз збоїв.
За допомогою емпіричного дослідження вони виявили кілька ключових висновків щодо сучасних великих моделей висновків:
По-перше, хоча великі моделі логічного висновку здатні вивчати складні механізми саморефлексії за допомогою навчання з підкріпленням, вони не розвивають узагальнені здібності до вирішення проблем для завдань планування, і їх продуктивність падає до нуля після перевищення певного порогу складності.
По-друге, дослідницька команда в рамках еквівалентного міркування порівняла великі моделі міркування та стандартні великі моделі, що виявило три різні механізми міркування.
Перший механізм полягає в тому, що для простіших, менш комбінованих завдань стандартна велика модель демонструє вищу ефективність і точність.
Другий механізм полягає в тому, що з помірним зростанням складності задач великі моделі міркувань отримують переваги.
Третій механізм полягає в тому, що коли проблема ускладнюється з ростом глибини комбінації, обидва типи моделей зазнають повного краху продуктивності.
!
(джерело: ілюстрація)
Варто зазначити, що, наближаючись до цієї критичної точки виходу з ладу, незважаючи на те, що виконання великих моделей міркування ще не досягло обмеження на довжину генерації, з ростом складності запитів вони починають зменшувати вклад у міркування (вимірюється за кількістю токенів під час міркування).
!
(джерело: ілюстрація)
Це вказує на те, що існує фундаментальне обмеження в здатностях до міркування великих моделей міркування: їхній час міркування суттєво зростає зі збільшенням складності питання.
Крім того, за допомогою аналізу траєкторій проміжних міркувань дослідницька група виявила закономірне явище, пов'язане зі складністю проблеми, тобто в більш простих задачах модель висновку часто може швидко знаходити неправильне рішення, але все одно неефективно продовжувати досліджувати неправильний варіант, який часто називають «надмірним обмірковуванням».
У випадку середньої складності задач, моделі необхідно пройти через широке дослідження великої кількості помилкових шляхів, перш ніж знайти правильне рішення. А при перевищенні певного порогу складності модель зовсім не може знайти правильне рішення.
Бай Тін, доцент Пекінського університету пошти та телекомунікацій, розповів DeepTech, що подібно до людського способу мислення, для складних проблем, хоча вони не знають, яка правильна відповідь, часто вони знають, що є неправильним. Зокрема, це пов'язано з розміром простору рішень, оскільки простір рішень простих задач короткий, а ступінь відповідності ознак висока, правильне рішення часто природно знаходиться на передньому кінці мисленнєвого шляху, тоді як простір рішень складних проблем експоненціально розширюється за рахунок зв'язку багатовимірних змінних і вкладеності логічних рівнів, а простір рішень величезний, що об'єктивно проявляється як відносна позаду в послідовності мислення.
Що відбувається всередині "мислення" модельного інтелекту?
У дослідженні більшість експериментів були проведені на моделях логічного висновку та їхніх аналогах без висновків, таких як Claude 3.7 Sonnet (with inference/without inference) та DeepSeek-R1/V3. Дослідницька група вибрала ці моделі, оскільки, на відміну від таких моделей, як O-серія OpenAI, вони дозволяють отримати доступ до токена Thinking.
Для кожного екземпляра головоломки дослідницька команда згенерувала 25 зразків і повідомила про середню продуктивність кожної моделі.
Щоб глибше зрозуміти процес мислення моделей висновків, дослідницька команда провела детальний аналіз їхніх слідів міркування.
Протягом цього періоду вони досягли глибокого аналізу, що виходить за рамки остаточної відповіді моделі, за допомогою побудови експериментального середовища головоломки, щоб вони могли провести більш детальне спостереження та аналіз траєкторії міркування (тобто «розумового процесу»), породженого нею.
Зокрема, вони за допомогою симулятора головоломок здійснили витяг та аналіз проміжних рішень, які були виявлені під час процесу мислення моделі.
Потім вони розглядають закономірності та характеристики цих рішень, їх правильність щодо послідовної позиції в процесі міркування, а також те, як ці закономірності еволюціонують зі зростанням складності проблеми.
Для цього аналізу дослідницька група зосередилася на слідах висновків, згенерованих моделлю висновків Claude 3.7 Sonnet у групових експериментах із головоломками.
Для кожного проміжного рішення, виявленого в трасі, дослідницька група записала наступне: (1) його взаємне положення в траєкторії міркування (нормалізоване за загальною довжиною думки), (2) його правильність, перевірену симулятором головоломки дослідницької групи, і (3) складність відповідної проблеми.
Це дозволяє дослідницькій команді описати прогрес і точність формування рішень протягом усього процесу міркування.
! lgf2esRhQ8D8S5CgvuCS4e48OS2oxOtufupMh8Dx.png
Дослідницька команда виявила, що для простіших завдань моделі міркувань зазвичай знаходять правильне рішення на ранньому етапі роздумів, але потім продовжують шукати неправильні рішення.
У порівнянні з правильним рішенням (зелений) розподіл неправильного рішення (червоний) значно зміщений до кінця ланцюжка думок. Ця тенденція змінюється в міру помірного зростання складності проблеми: модель спочатку досліджує неправильне рішення, а правильне рішення в основному приходить до нього пізно на стадії роздумів. Цього разу розподіл неправильного розчину (червоний) більш перекошений вниз, ніж правильного розчину (зелений).
Нарешті, для складніших проблем модель починає зазнавати краху, що означає, що модель не може згенерувати жодного правильного розв'язку під час процесу мислення.
На нижньому малюнку представлено додатковий аналіз точності рішень у сегментах (інтервалах) послідовності думок у середовищі Ханойської вежі.
! n9VEKux2mllIbnTW6RTGNTE8mxgwiElcJwe7Twum.png
Можна спостерігати, що для простіших проблем (менші значення N) точність рішень зазвичай знижується або коливається в міру просування мислення, що надає подальші докази феномену надмірного мислення.
Однак для більш складних питань ця тенденція може змінитися — точність рішень зростає в міру розвитку думки, поки не досягне певного порогу. Понад цей поріг складності, в режимі «зламу», точність моделі дорівнює нулю.
Бай Тін сказав DeepTech, що модель потребує численних висновків у складних проблемах, і за передумови, що правильного рішення не було, можливо, механізм висновків моделі використовує кілька ітерацій для створення стратегії оптимізації ефективності, яка може бути стратегією захисту ресурсів, щоб запобігти занадто великій кількості ітерацій. Тому висновки в цій роботі потребують ретельного аналізу та верифікації з боку рівня реалізації моделі.
Бай Тін вказував, що також можливо, що процес міркування великих моделей є, по суті, викликом шаблонів пам'яті. Для таких моделей, як DeepSeek-R1 і o3-mini, їх продуктивність сильно залежить від охоплення режиму пам'яті в тренувальних даних, і коли складність проблеми перевищує поріг покриття режиму пам'яті (наприклад, кероване середовище головоломки, розроблене дослідницькою групою Apple), модель потрапляє в стан «нульової точності».
Хоча це середовище головоломок дозволяє проводити тонкі контрольовані експерименти над складністю проблеми, вони представляють лише невелику частину завдання міркування і можуть не охопити різноманітність реальних або наукомістких проблем міркування.
Важливо зазначити, що це дослідження в першу чергу ґрунтується на доступі чорного ящика API до закритих, передових моделей великого висновку, обмеження, яке не дозволяє дослідницькій групі аналізувати її внутрішній стан або архітектурні компоненти.
Крім того, при використанні детерміністичного симулятора головоломки дослідницька група висунула гіпотезу, що міркування можна ідеально перевіряти крок за кроком. Однак у менш структурованих областях такої точної перевірки може бути важко досягти, обмежуючи міграцію методу аналізу до ширшого спектру сценаріїв висновків.
Загалом дослідницька група розглянула передові великомасштабні моделі висновків з точки зору складності проблеми через контрольоване середовище для вирішення головоломок. Цей результат виявляє обмеженість сучасних моделей: незважаючи на складні механізми саморефлексії, ці моделі не здатні розвивати навички узагальненого висновку за межами певного порогу складності. Дослідницька група вважає, що цей результат може прокласти шлях для вивчення розумових можливостей цих моделей.