Новая работа Apple анализирует проблему обрушения точности DeepSeek-R1

Верю, что те, кто использовал модель DeepSeek-R1, не знакомы с процессом размышления, который предшествует получению ответа, и это одна из причин, по которой крупные модели рассуждений (LRM, Large Reasoning Model), включая DeepSeek-R1, пользуются высокой репутацией.

Однако команда из шести исследователей компании Apple поставила это под сомнение. Позволяя модели решать различные загадки, исследовательская группа обнаружила, что передовые большие модели вывода, такие как DeepSeek-R1, o3-mini и Claude-3.7-Sonnet-Thinking, после превышения определенного порога сложности начинают демонстрировать полное разрушение точности.

!

Рисунок | Связанные статьи (Источник:

Следует отметить, что старший директор по исследованию машинного обучения в Apple Сами Бенгио (Samy Bengio) является соавтором данной статьи. Он не только брат лауреата премии Тьюринга Иошуа Бенгио (Yoshua Bengio), но и одним из первых участников команды Google Brain.

!

На фото | Шесть авторов соответствующей статьи, второй справа — Сами Бенджио (Samy Bengio) (Источник: архивное фото)

Пользователь сети на X пришел к выводу, что Apple — это Гэри Маркус (Gary Marcus), на самом деле сам Гэри Маркус также опубликовал в LinkedIn, чтобы подтвердить статью Apple. Он написал: «Последняя статья Apple о способности «рассуждать» в больших языковых моделях весьма впечатляет. В длинной статье на выходных я объясняю, почему (и исследую возможные возражения), чтобы показать, почему вы не должны слишком удивляться. ”

В своей статье «Длинные выходные» Гэри Маркус писал: «Эта новая статья Apple еще больше подтверждает мою собственную критику: даже несмотря на то, что недавно разработанные так называемые «модели вывода» итеративно превзошли версию O1, они все еще не в состоянии достичь нераспределенных надежных рассуждений по классическим проблемам, таким как Ханойская башня». Это плохая новость для исследователей, которые надеются, что «мощность вывода» или «вычисления во время вывода» вернут большие языковые модели в нужное русло, отойдя от простого масштабирования и повторяющихся неудач (никогда не приводя к технологическим прорывам, достойным названия «GPT-5»). ”

!

图 | Гэри Маркус (Gary Marcus) опубликовал на своем личном сайте "долгое чтение на выходные" (источник:

Итак, это все-таки «плохая новость» или «хорошая новость», начнем с подробностей статьи Apple.

может выполнить до 100 правильных действий, но не может дать правильные инструкции более чем на 5 шагов.

В исследовании команда исследователей из Apple обнаружила три различных модели вывода: в задачах с низкой сложностью стандартные большие языковые модели показывают лучшие результаты, чем большие модели вывода; в задачах средней сложности большие модели вывода показывают более выдающиеся результаты; а в задачах высокой сложности ни один из типов моделей не может эффективно выполнить задачу.

С приближением проблемы к критической сложности усилия, необходимые для вывода, неожиданно уменьшаются, что указывает на наличие некоего предела в масштабировании вычислений для крупных моделей вывода.

Исследовательская группа заявила, что эти выводы ставят под сомнение основные предположения о возможностях крупных моделей вывода и указывают на то, что текущие методы могут иметь фундаментальные препятствия для достижения обобщенного вывода.

Наиболее примечательным является то, что исследовательская команда наблюдала ограничения крупных моделей вывода в выполнении точных вычислений. Например, когда модели предоставляли алгоритм решения математической головоломки Ханойская башня, их производительность по этому вопросу не улучшилась.

Кроме того, углубленный анализ первых ошибок модели выявил неожиданные модели поведения. Например, модель может выполнить до 100 правильных действий в игре Ханойская башня, но не может дать более 5 правильных действий в игре на логическое мышление - задаче о переправе.

В целом, исследовательская группа считает, что эта статья как подчеркивает преимущества существующих крупных моделей вывода, так и выявляет их ограничения. Основные выводы исследования следующие пять:

Во-первых, исследовательская группа ставит под сомнение парадигму оценки современных крупных моделей вывода по установленным математическим стандартам и разработала контролируемую экспериментальную тестовую платформу с использованием алгоритмической среды задач.

Во-вторых, экспериментальная команда показала, что даже самые современные крупные модели вывода (такие как o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) все еще не смогли развить обобщающую способность решения проблем. В различных условиях, когда сложность проблемы превышает определенный порог, их точность в конечном итоге падает до нуля.

В-третьих, исследовательская группа обнаружила, что существует предел масштабирования, связанный со сложностью проблемы в способности выводить большие модели вывода, что может быть подтверждено контринтуитивной тенденцией к снижению количества мыслящих токенов после достижения определенной точки сложности.

Четвертое, исследовательская группа ставит под сомнение текущую оценочную парадигму, основанную на окончательной точности, и анализ показывает, что с увеличением сложности задач правильные ответы появляются на более поздних этапах рассуждений по сравнению с неправильными.

В-пятых, исследовательская группа выявила удивительные ограничения больших моделей вывода в их способности выполнять точные вычисления, в том числе их неспособность извлечь выгоду из явных алгоритмов и несогласованность в рассуждениях по различным типам головоломок.

Ограниченная способность самокоррекции крупных моделей вывода

Согласно информации, крупные модели вывода — это новые варианты, специально оптимизированные для задач вывода, которые возникли из больших языковых моделей.

Эти модели относятся к новым технологическим продуктам, их ключевой характеристикой является уникальный механизм «мышления», например, цепь размышлений (CoT, Chain-of-Thought), которая демонстрирует выдающиеся результаты в нескольких тестах на рассуждение.

Появление этих моделей знаменует собой возможный переход к новому парадигме в том, как большие языковые модели обрабатывают сложные рассуждения и решают проблемы. Некоторые исследователи считают, что это представляет собой важный шаг к более универсальным возможностям искусственного интеллекта.

Несмотря на существование этих точек зрения и прогресса в производительности, основные преимущества и ограничения крупных моделей вывода все еще недостаточно поняты. Один из ключевых вопросов, на который еще не найден ответ: обладают ли эти крупные модели вывода способностью к обобщающему выводу? Или они просто используют различные формы сопоставления шаблонов?

Как будет изменяться их производительность с увеличением сложности задач? Как они будут себя вести по сравнению со стандартными большими языковыми моделями, не обладающими механизмом "мышления", при заданном одинаковом бюджете вычислений для токенов вывода?

Каковы основные ограничения текущих методов вывода? Какие улучшения могут потребоваться для достижения более мощных способностей вывода?

Исследовательская группа утверждает, что ограниченность текущей парадигмы оценки приводит к отсутствию систематического анализа этих вопросов. Существующие оценки сосредоточены в основном на установленных математических критериях и критериях кодирования. Несмотря на то, что эти тесты имеют определенную ценность, они часто страдают от загрязнения данных и не могут обеспечить контролируемые экспериментальные условия для различных сценариев и сложностей.

Для более строгого понимания поведения вывода этих моделей исследовательская группа считает необходимым наличие среды, позволяющей проводить контролируемые эксперименты.

Для этого, вместо использования стандартного эталона, такого как математическая задача, они приняли контролируемую среду головоломки, т.е. настраивая элементы головоломки, сохраняя при этом основную логику, так что сложность может быть систематически варьирована, а процесс решения и внутренний процесс рассуждений могут быть изучены.

!

(Источник: иллюстративное изображение)

Эти загадки имеют следующие характеристики:

(1) Возможность предоставлять точный контроль над сложностью;

(2) Избегайте распространенных загрязнений в существующих эталонах;

(3) Нужно полагаться только на четко заданные правила, подчеркивая способность алгоритмического вывода;

(4) Поддержка строгой оценки на основе эмуляторов, что позволяет осуществлять точную проверку решений и детальный анализ неисправностей.

С помощью эмпирического исследования они раскрыли несколько ключевых выводов о современных крупных моделях вывода:

Во-первых, хотя крупные модели вывода могут обучаться сложным механизмам самоанализа с помощью обучения с подкреплением, они не смогли разработать универсальные способности решения проблем для задач планирования, и после достижения определенного порога сложности их производительность падает до нуля.

Во-вторых, исследовательская группа сравнила крупные модели вывода и стандартные большие модели в рамках эквивалентного вывода, что выявило три различных механизма вывода.

Первый механизм заключается в том, что для более простых и менее сложных задач стандартная большая модель демонстрирует более высокую эффективность и точность.

Второй механизм заключается в том, что с умеренным увеличением сложности задач крупные модели вывода получают преимущество.

Третий механизм заключается в том, что когда проблема становится сложнее с увеличением глубины комбинации, обе категории моделей испытывают полный крах производительности.

!

(Источник: иллюстрация)

Важно отметить, что по мере увеличения сложности задачи большие модели вывода начинают уменьшать свои усилия по выводу (измеряемые количеством токенов во время вывода), даже если они далеки от достижения предела длины генерации по мере увеличения сложности задачи.

!

(Источник: иллюстрация)

Это указывает на то, что существует фундаментальное ограничение в способности больших моделей вывода: время их вывода значительно увеличивается с ростом сложности задачи.

Кроме того, анализируя промежуточные траектории вывода, исследовательская группа выявила закономерности, связанные со сложностью задачи, а именно, что в более простых задачах модели вывода чаще всего могут быстро находить ошибочные решения, но при этом все равно неэффективно продолжают исследовать ошибочные варианты, что является тем, что люди часто называют "избыточным мышлением".

В задачах средней сложности модели необходимо провести обширное исследование множества ошибочных путей, прежде чем они смогут найти правильное решение. Однако при превышении определённого порога сложности модели полностью не могут найти правильное решение.

Бай Тин, доцент Пекинского университета почты и телекоммуникаций, рассказал DeepTech, что, подобно человеческому образу мышления, для сложных проблем, хотя они и не знают, какой ответ правильный, во многих случаях они знают, что неправильно. В частности, это связано с размером пространства решений, потому что пространство решений простых задач короткое, а степень совпадения признаков высокая, правильное решение часто естественно находится на переднем крае пути мышления, в то время как пространство решений сложных задач экспоненциально расширяется за счет сопряжения многомерных переменных и вложенности логических уровней, а пространство решений огромно, что объективно проявляется как относительная постарность в последовательности мышления.

Что происходит внутри "мышления" модели вывода?

В исследовании большинство экспериментов проводилось на моделях логического вывода и их аналогах без логического вывода, таких как сонет Claude 3.7 (с выводом/без вывода) и DeepSeek-R1/V3. Исследовательская группа выбрала эти модели, потому что, в отличие от таких моделей, как O-серия OpenAI, они позволяют получить доступ к токену Thinking.

Для каждого экземпляра задачи исследовательская группа сгенерировала 25 образцов и сообщила о среднем показателе производительности каждой модели.

Для более глубокого понимания мыслительного процесса моделей вывода исследовательская группа провела тщательный анализ их следов вывода.

В течение этого времени они через создание экспериментальной среды с загадками достигли глубокой аналитики помимо окончательного ответа модели, что позволило им более тщательно наблюдать и анализировать генерируемую ими траекторию рассуждений (то есть "процесс мышления").

Конкретно, они использовали симулятор головоломок для извлечения и анализа промежуточных решений, исследуемых в процессе мышления модели.

Затем они исследовали модели и характеристики этих средних решений, правильность их последовательного расположения в процессе вывода, а также то, как эти модели эволюционируют с увеличением сложности задачи.

Для этого анализа исследовательская группа сосредоточилась на следах вывода, генерируемых моделью вывода сонета Клода 3.7 в групповых экспериментах-головоломках.

Для каждого промежуточного решения, идентифицированного в трассировке, исследовательская группа зафиксировала следующее: (1) его относительное положение в траектории рассуждения (нормализованное по общей длине мысли), (2) его правильность, проверенную симулятором головоломки исследовательской группы, и (3) сложность соответствующей проблемы.

Это позволяет исследовательской команде описать прогресс и точность формирования решений на протяжении всего процесса рассуждения.

! lgf2esRhQ8D8S5CgvuCS4e48OS2oxOtufupMh8Dx.png

Исследовательская группа обнаружила, что для более простых задач модели рассуждений обычно находят правильное решение на ранних этапах размышлений, но затем продолжают исследовать неправильные методы решения.

По сравнению с правильным решением (зеленым) распределение неправильного решения (красным) значительно смещается к концу цепочки мыслей. Эта тенденция меняется на противоположную по мере умеренного увеличения сложности проблемы: модель сначала исследует неправильное решение и в основном приходит к правильному решению на поздних этапах мышления. На этот раз распределение неправильного решения (красный) более смещено в сторону уменьшения, чем правильное решение (зеленый).

Наконец, для более сложных задач модель начинает демонстрировать сбои, что означает, что модель не может генерировать никаких правильных решений в процессе размышлений.

На рисунке ниже показан дополнительный анализ точности кусочного (интервального) решения последовательности мыслей в среде Ханойской башни.

! n9VEKux2mllIbnTW6RTGNTE8mxgwiElcJwe7Twum.png

Можно заметить, что для более простых задач (с меньшими значениями N) с развитием мысли точность решения часто снижается или колеблется, что предоставляет дополнительные доказательства явления чрезмерного размышления.

Однако для более сложных задач эта тенденция меняется – точность решения увеличивается по мере развития мышления, пока не будет достигнут определенный порог. За пределами этого порога сложности точность модели равна нулю в «режиме краша».

Бай Тин сообщила DeepTech, что модели требуется многократное рассуждение по сложным задачам, и в условиях отсутствия правильного решения механизм рассуждения модели, возможно, использует стратегию оптимизации эффективности генерации с многократным итеративным рассуждением, что может быть стратегией защиты ресурсов от чрезмерных итераций. Поэтому выводы данной статьи требуют детального анализа и проверки на уровне реализации модели.

Бай Тин отметил, что также возможно, что процесс рассуждения больших моделей по сути является вызовом шаблонов памяти. Для таких моделей, как DeepSeek-R1 и o3-mini, их производительность сильно зависит от покрытия режима памяти в обучающих данных, и когда сложность задачи превышает порог покрытия режима памяти (например, управляемая среда головоломки, разработанная исследовательской группой Apple), модель переходит в состояние «нулевой точности».

Хотя данная среда задач позволяет проводить контролируемые эксперименты с тонкой настройкой сложности вопросов, они представляют собой лишь небольшую часть задач на рассуждение и, возможно, не отражают разнообразия проблем, связанных с рассуждением в реальном мире или с высоким уровнем знаний.

Следует отметить, что данное исследование в основном основано на доступе к закрытым передовым большим моделям вывода через черный ящик API, что ограничивает исследовательскую группу в анализе их внутреннего состояния или архитектурных компонентов.

Кроме того, при использовании детерминированного симулятора головоломки исследовательская группа выдвинула гипотезу о том, что рассуждения могут быть идеально проверены шаг за шагом. Однако в менее структурированных областях такая точная валидация может быть затруднена, что ограничивает миграцию метода анализа на более широкий спектр сценариев вывода.

В целом, исследовательская группа изучила передовые крупномасштабные модели вывода с точки зрения сложности проблемы через контролируемую среду решения головоломок. Этот результат выявляет ограничения существующих моделей: несмотря на сложные механизмы саморефлексии, эти модели не способны развивать обобщаемые навыки вывода, выходящие за пределы определенного порога сложности. Исследовательская группа считает, что этот результат может проложить путь к изучению логических возможностей этих моделей.

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить