Los que han utilizado el modelo DeepSeek-R1 no son ajenos al proceso de pensamiento que sigue antes de dar una respuesta, y esta es una de las razones por las que los modelos de razonamiento a gran escala (LRM, Large Reasoning Model), incluido DeepSeek-R1, son tan apreciados.
Sin embargo, un equipo compuesto por seis investigadores de Apple ha cuestionado esto. Al hacer que el modelo respondiera a varios acertijos, el equipo de investigación descubrió que los avanzados modelos de razonamiento DeepSeek-R1, o3-mini y Claude-3.7-Sonnet-Thinking experimentan un colapso total en su precisión después de superar un cierto umbral de complejidad.
Imagen | Artículos relacionados (Fuente:
Es notable que Samy Bengio, director senior de investigación en aprendizaje automático de Apple, es coautor de este artículo. No solo es el hermano del ganador del Premio Turing Yoshua Bengio, sino que también fue uno de los primeros miembros del equipo de Google Brain.
Imagen | Seis autores del artículo relacionado, el segundo a la derecha es Samy Bengio (Fuente: Imagen de archivo)
Un internauta en X concluyó que Apple era un Gary Marcus (Gary Marcus), de hecho, el propio Gary Marcus también publicó en LinkedIn para afirmar el artículo de Apple. Escribió: "El último artículo de Apple sobre la capacidad de 'razonar' en grandes modelos de lenguaje es bastante impresionante. En un artículo de fin de semana largo, explico por qué (y exploro una posible objeción) para mostrar por qué no debería sorprenderse demasiado. ”
En el "Long Weekend Article" de Gary Marcus, escribió: "Este nuevo artículo de Apple apoya aún más mi propia crítica: aunque los llamados 'modelos de inferencia' recientemente desarrollados han superado iterativamente a la versión O1, todavía no logran lograr un razonamiento confiable fuera de distribución en problemas clásicos como la Torre de Hanoi". Esta es una mala noticia para los investigadores que esperan que el "poder de inferencia" o el "cálculo en tiempo de inferencia" vuelvan a encarrilar los grandes modelos de lenguaje, alejándose del simple escalado y los fracasos repetidos (nunca produciendo avances tecnológicos dignos del nombre de 'GPT-5'). ”
Imagen | Gary Marcus publicó en su sitio web personal "Un largo artículo de fin de semana" (fuente:
Entonces, ¿es esto "mala noticia" o "buena noticia"? Comencemos con los detalles del artículo de Apple.
puede realizar hasta 100 acciones correctas, pero no puede dar más de 5 pasos de operación correcta.
En la investigación, el equipo de investigación de Apple descubrió tres patrones de razonamiento diferentes: en tareas de baja complejidad, los modelos de lenguaje estándar superan a los modelos de razonamiento grandes; en tareas de complejidad media, los modelos de razonamiento grandes se desempeñan mucho mejor; mientras que en tareas de alta complejidad, ninguno de los dos tipos de modelos puede completar la tarea de manera efectiva.
A medida que los problemas se acercan a la complejidad crítica, el esfuerzo requerido para la inferencia en realidad muestra una reducción contraintuitiva, lo que sugiere que los grandes modelos de inferencia pueden tener un límite inherente en la escalabilidad computacional.
El equipo de investigación afirma que estas percepciones desafían las hipótesis predominantes sobre las capacidades de los grandes modelos de inferencia y sugieren que los métodos actuales pueden enfrentar obstáculos fundamentales para lograr inferencias generalizables.
Lo más notable es que el equipo de investigación observó las limitaciones de los grandes modelos de inferencia en la realización de cálculos precisos. Por ejemplo, cuando se les proporcionó el algoritmo de solución para el juego matemático de la Torre de Hanoi, su rendimiento en este problema no mejoró.
Además, un análisis profundo de los primeros errores del modelo reveló patrones de comportamiento sorprendentes. Por ejemplo, el modelo puede realizar hasta 100 movimientos correctos en las Torres de Hanoi, pero no puede proporcionar más de 5 pasos correctos en el juego de lógica del acertijo del río.
En general, el equipo de investigación considera que este artículo resalta tanto las ventajas de los grandes modelos de inferencia existentes como sus limitaciones. Las principales conclusiones de la investigación son las siguientes cinco:
En primer lugar, el equipo de investigación cuestiona el paradigma de evaluación de los actuales modelos de inferencia a gran escala en los estándares matemáticos establecidos y ha diseñado una plataforma de prueba controlada utilizando un entorno de acertijos algorítmicos.
En segundo lugar, los experimentos del equipo de investigación han demostrado que incluso los modelos de inferencia más avanzados (como o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) aún no han logrado desarrollar una capacidad de resolución de problemas generalizable. En diferentes entornos, cuando la complejidad del problema supera un cierto umbral, su tasa de precisión finalmente caerá a cero.
En tercer lugar, el equipo de investigación descubrió que existe un límite de escala relacionado con la complejidad del problema en la capacidad de inferencia de grandes modelos de inferencia, lo que puede confirmarse por la tendencia a la baja contraintuitiva en el número de tokens de pensamiento después de alcanzar un cierto punto de complejidad.
Cuarto, el equipo de investigación cuestiona el paradigma de evaluación actual basado en la precisión final, y el análisis muestra que a medida que aumenta la complejidad del problema, las soluciones correctas aparecen en una posición más posterior en el proceso de razonamiento en comparación con las soluciones incorrectas.
Quinto, el equipo de investigación reveló las sorprendentes limitaciones de los grandes modelos de razonamiento en su capacidad para realizar cálculos precisos, incluyendo su incapacidad para beneficiarse de algoritmos explícitos y la inconsistencia en el razonamiento entre diferentes tipos de acertijos.
La capacidad de autocorrección de los grandes modelos de inferencia es limitada
Se entiende que los grandes modelos de inferencia son una nueva variante derivada de los grandes modelos de lenguaje, optimizada específicamente para tareas de inferencia.
Estos modelos son nuevos productos tecnológicos, y sus características principales son mecanismos de "pensamiento" únicos, como la cadena de pensamiento (CoT) autorreflexiva, y han demostrado un excelente rendimiento en múltiples puntos de referencia de inferencia.
La aparición de estos modelos marca un posible cambio de paradigma en la forma en que los grandes modelos de lenguaje manejan el razonamiento complejo y la resolución de problemas. Algunos investigadores creen que esto representa un paso importante hacia capacidades de inteligencia artificial más generales.
A pesar de estas perspectivas y avances en el rendimiento, los beneficios y limitaciones fundamentales de los modelos de inferencia grandes aún no se comprenden completamente. Una pregunta clave sin respuesta es: ¿Estos grandes modelos de inferencia tienen capacidades de inferencia generalizadas? ¿O simplemente están aprovechando diferentes formas de coincidencia de patrones?
¿Cómo cambiará su rendimiento a medida que aumente la complejidad del problema? ¿Cómo se comparan con los modelos de lenguaje estándar que no tienen un mecanismo de "pensamiento" dado el mismo presupuesto de cálculo de tokens de razonamiento?
¿Cuáles son las limitaciones inherentes del método de inferencia actual? ¿Qué mejoras podrían ser necesarias para lograr una capacidad de inferencia más poderosa?
El equipo de investigación considera que las limitaciones del paradigma de evaluación actual han llevado a una falta de análisis sistemático sobre estos problemas. Las evaluaciones existentes se centran principalmente en estándares matemáticos establecidos y estándares de codificación. Aunque estos estándares tienen cierto valor, a menudo presentan problemas de contaminación de datos y no pueden proporcionar condiciones experimentales controlables en diferentes escenarios y complejidades.
Para entender de manera más rigurosa el comportamiento de inferencia de estos modelos, el equipo de investigación considera necesario un entorno que permita realizar experimentos controlados.
Para hacer esto, en lugar de usar un punto de referencia estándar como un problema matemático, adoptaron un entorno de rompecabezas controlado, es decir, ajustando los elementos del rompecabezas mientras conservan la lógica central, de modo que la complejidad pueda variarse sistemáticamente y se pueda examinar el proceso de solución y el proceso de razonamiento interno.
(Fuente: Archivo de imágenes)
Estos acertijos tienen las siguientes características:
(1) Capacidad para proporcionar un control preciso sobre la complejidad;
(2) Evitar la contaminación común en los estándares existentes;
(3) Solo necesita depender de reglas claramente definidas, enfatizando la capacidad de razonamiento algorítmico;
(4) Soporta evaluaciones rigurosas basadas en simuladores, lo que permite la verificación precisa de soluciones y un análisis detallado de fallos.
A través de investigaciones empíricas, revelaron varios hallazgos clave sobre los actuales modelos de razonamiento a gran escala:
Primero, aunque los grandes modelos de inferencia pueden aprender mecanismos complejos de autorreflexión a través del aprendizaje por refuerzo, no han logrado desarrollar una capacidad de resolución de problemas generalizable para tareas de planificación; después de superar un cierto umbral de complejidad, el rendimiento cae a cero.
En segundo lugar, la comparación entre modelos de inferencia a gran escala y modelos grandes estándar bajo el cálculo de inferencia equivalente por parte del equipo de investigación reveló tres mecanismos de inferencia diferentes.
El primer mecanismo es: para problemas más simples y de menor complejidad, los modelos grandes estándar muestran una mayor eficiencia y precisión.
El segundo mecanismo es que a medida que la complejidad del problema aumenta moderadamente, los modelos de inferencia grandes obtienen una ventaja.
El tercer mecanismo es que cuando el problema se vuelve más complejo a medida que aumenta la profundidad de la composición, ambos tipos de modelos experimentan una caída completa del rendimiento.
(Fuente: imagen de archivo)
Es importante señalar que, al acercarse a este punto crítico de falla, aunque la ejecución de los modelos de inferencia de gran tamaño aún no ha alcanzado el límite de longitud de generación, a medida que aumenta la complejidad del problema, comienzan a reducir la inversión en inferencia (medida por el número de tokens durante la inferencia).
(Fuente: imagen de archivo)
Esto indica que hay una limitación fundamental en la capacidad de razonamiento de los grandes modelos de inferencia: su tiempo de razonamiento aumenta significativamente con el crecimiento de la complejidad del problema.
Además, a través del análisis de las trayectorias de inferencia intermedias, el equipo de investigación descubrió fenómenos regulares relacionados con la complejidad del problema, es decir, en problemas más simples, los modelos de inferencia a menudo pueden encontrar rápidamente soluciones incorrectas, pero aún así continúan explorando opciones erróneas de manera ineficiente, fenómeno que comúnmente se conoce como "sobrepensar".
En problemas de complejidad media, el modelo necesita pasar por una extensa exploración de múltiples caminos erróneos antes de encontrar la solución correcta. Sin embargo, al superar un cierto umbral de complejidad, el modelo es completamente incapaz de encontrar la solución correcta.
Bai Ting, profesor asociado de la Universidad de Correos y Telecomunicaciones de Beijing, dijo a DeepTech que, de manera similar a la forma humana de pensar, para problemas complejos, aunque no sepan cuál es la respuesta correcta, muchas veces saben lo que es incorrecto. Específicamente, esto está relacionado con el tamaño del espacio de solución, porque el espacio de solución de problemas simples es corto y el grado de coincidencia de características es alto, la solución correcta a menudo se encuentra naturalmente en el extremo frontal del camino de pensamiento, mientras que el espacio de solución de problemas complejos se expande exponencialmente debido al acoplamiento de variables multidimensionales y el anidamiento de niveles lógicos, y el espacio de solución es enorme, lo que se manifiesta objetivamente como la postaridad relativa en la secuencia de pensamiento.
¿Qué sucede internamente en el "pensamiento" del modelo de inferencia ###?
En el estudio, la mayoría de los experimentos se realizaron en modelos de inferencia y sus contrapartes sin inferencia, como Claude 3.7 Sonnet (con inferencia/sin inferencia) y DeepSeek-R1/V3. El equipo de investigación eligió estos modelos porque, a diferencia de modelos como la serie O de OpenAI, permiten el acceso al token Thinking.
Para cada instancia de acertijo, el equipo de investigación generó 25 muestras y reportó el rendimiento promedio de cada modelo.
Para comprender más a fondo el proceso de pensamiento de los modelos de razonamiento, el equipo de investigación realizó un análisis detallado de sus huellas de razonamiento.
Durante este tiempo, a través de la construcción de un entorno experimental de acertijos, lograron un análisis profundo más allá de la respuesta final del modelo, lo que les permitió observar y analizar con mayor detalle la trayectoria de razonamiento generada (es decir, el "proceso de pensamiento").
En concreto, extrajeron y analizaron las soluciones intermedias exploradas durante el proceso de pensamiento del modelo utilizando el simulador de acertijos.
Luego, examinaron los patrones y características de estas soluciones intermedias, la precisión de las posiciones secuenciales durante el proceso de razonamiento, así como cómo estos patrones evolucionan a medida que aumenta la complejidad del problema.
En este análisis, el equipo de investigación se centró en las huellas de razonamiento producidas por el modelo de razonamiento Claude 3.7 Sonnet en el experimento del grupo de acertijos.
Para cada solución intermedia identificada en las huellas, el equipo de investigación registró lo siguiente: (1) su posición relativa en la trayectoria de razonamiento (normalizada por la longitud total del pensamiento), (2) su corrección verificada por el simulador de acertijos del equipo de investigación, (3) la complejidad del problema correspondiente.
Esto permite al equipo de investigación describir el progreso y la precisión en la formación de soluciones a lo largo de todo el proceso de razonamiento.
El equipo de investigación descubrió que, para problemas más simples, los modelos de razonamiento generalmente encuentran la solución correcta en las primeras etapas de la reflexión, pero luego continúan explorando métodos de solución incorrectos.
En comparación con la solución correcta (verde), la distribución de la solución incorrecta (rojo) se desplaza significativamente hacia el final de la cadena de pensamiento. Esta tendencia se invierte a medida que la complejidad del problema aumenta moderadamente: el modelo explora primero la solución incorrecta y, en su mayoría, llega a la solución correcta tarde en el pensamiento. Esta vez, la distribución de la solución incorrecta (rojo) está más sesgada hacia abajo que la solución correcta (verde).
Finalmente, para problemas de mayor complejidad, el modelo comienza a mostrar fenómenos de colapso, lo que significa que el modelo no puede generar ninguna solución correcta durante el proceso de pensamiento.
La imagen a continuación presenta un análisis adicional sobre la precisión de las soluciones dentro de los segmentos (intervalos) de la secuencia de pensamiento en el entorno de la Torre de Hanói.
Se puede observar que, para problemas más simples (valores de N más pequeños), a medida que avanza el pensamiento, la precisión de las soluciones tiende a disminuir o fluctuar, lo que proporciona más evidencia del fenómeno del exceso de pensamiento.
Sin embargo, para problemas más complejos, esta tendencia cambia: la precisión de la solución aumenta a medida que avanza el pensamiento, hasta que se alcanza un cierto umbral. Más allá de este umbral de complejidad, la precisión del modelo es cero en "modo de bloqueo".
Bai Ting le dijo a DeepTech que el modelo necesita múltiples inferencias en problemas complejos, y bajo la premisa de que no ha habido una solución correcta, es posible que el mecanismo de inferencia del modelo utilice múltiples iteraciones para generar una estrategia de optimización de la eficiencia, que puede ser una estrategia de protección de recursos para evitar demasiadas iteraciones. Por lo tanto, los hallazgos de este documento deben analizarse y verificarse cuidadosamente desde el nivel de implementación del modelo.
Bai Ting señaló que también es posible que el proceso de razonamiento de grandes modelos sea esencialmente la invocación de patrones de memoria. Para modelos como DeepSeek-R1 y o3-mini, su rendimiento depende en gran medida de la cobertura del modo de memoria en los datos de entrenamiento, y cuando la complejidad del problema supera el umbral de cobertura del modo de memoria (como el entorno de rompecabezas controlable diseñado por el equipo de investigación de Apple), el modelo cae en un estado de "precisión cero".
Aunque el entorno del acertijo permite experimentos controlados con un control de granularidad sobre la complejidad de las preguntas, estos solo representan una pequeña parte de las tareas de razonamiento y pueden no capturar la diversidad de los problemas de razonamiento del mundo real o de los que son intensivos en conocimiento.
Es importante señalar que este estudio se basa principalmente en el acceso a modelos de inferencia de vanguardia cerrados a través de API de caja negra, lo que limita al equipo de investigación para analizar su estado interno o componentes arquitectónicos.
Además, al utilizar un simulador de rompecabezas determinista, el equipo de investigación supuso que el razonamiento podría validarse perfectamente paso a paso. Sin embargo, en dominios de menor estructuración, esta validación precisa puede ser difícil de lograr, lo que limita la transferencia de este método de análisis a escenarios de razonamiento más amplios.
En general, el equipo de investigación examinó modelos de inferencia a gran escala de vanguardia desde la perspectiva de la complejidad del problema a través de un entorno de resolución de acertijos controlable. Este resultado revela las limitaciones de los modelos actuales: a pesar de sus complejos mecanismos de autorreflexión, estos modelos son incapaces de desarrollar habilidades de inferencia generalizables más allá de un cierto umbral de complejidad. El equipo de investigación cree que este resultado puede allanar el camino para estudiar las capacidades de razonamiento de estos modelos.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
El nuevo documento de Apple analiza el problema del colapso de la precisión de DeepSeek-R1
Los que han utilizado el modelo DeepSeek-R1 no son ajenos al proceso de pensamiento que sigue antes de dar una respuesta, y esta es una de las razones por las que los modelos de razonamiento a gran escala (LRM, Large Reasoning Model), incluido DeepSeek-R1, son tan apreciados.
Sin embargo, un equipo compuesto por seis investigadores de Apple ha cuestionado esto. Al hacer que el modelo respondiera a varios acertijos, el equipo de investigación descubrió que los avanzados modelos de razonamiento DeepSeek-R1, o3-mini y Claude-3.7-Sonnet-Thinking experimentan un colapso total en su precisión después de superar un cierto umbral de complejidad.
Imagen | Artículos relacionados (Fuente:
Es notable que Samy Bengio, director senior de investigación en aprendizaje automático de Apple, es coautor de este artículo. No solo es el hermano del ganador del Premio Turing Yoshua Bengio, sino que también fue uno de los primeros miembros del equipo de Google Brain.
Imagen | Seis autores del artículo relacionado, el segundo a la derecha es Samy Bengio (Fuente: Imagen de archivo)
Un internauta en X concluyó que Apple era un Gary Marcus (Gary Marcus), de hecho, el propio Gary Marcus también publicó en LinkedIn para afirmar el artículo de Apple. Escribió: "El último artículo de Apple sobre la capacidad de 'razonar' en grandes modelos de lenguaje es bastante impresionante. En un artículo de fin de semana largo, explico por qué (y exploro una posible objeción) para mostrar por qué no debería sorprenderse demasiado. ”
En el "Long Weekend Article" de Gary Marcus, escribió: "Este nuevo artículo de Apple apoya aún más mi propia crítica: aunque los llamados 'modelos de inferencia' recientemente desarrollados han superado iterativamente a la versión O1, todavía no logran lograr un razonamiento confiable fuera de distribución en problemas clásicos como la Torre de Hanoi". Esta es una mala noticia para los investigadores que esperan que el "poder de inferencia" o el "cálculo en tiempo de inferencia" vuelvan a encarrilar los grandes modelos de lenguaje, alejándose del simple escalado y los fracasos repetidos (nunca produciendo avances tecnológicos dignos del nombre de 'GPT-5'). ”
Imagen | Gary Marcus publicó en su sitio web personal "Un largo artículo de fin de semana" (fuente:
Entonces, ¿es esto "mala noticia" o "buena noticia"? Comencemos con los detalles del artículo de Apple.
puede realizar hasta 100 acciones correctas, pero no puede dar más de 5 pasos de operación correcta.
En la investigación, el equipo de investigación de Apple descubrió tres patrones de razonamiento diferentes: en tareas de baja complejidad, los modelos de lenguaje estándar superan a los modelos de razonamiento grandes; en tareas de complejidad media, los modelos de razonamiento grandes se desempeñan mucho mejor; mientras que en tareas de alta complejidad, ninguno de los dos tipos de modelos puede completar la tarea de manera efectiva.
A medida que los problemas se acercan a la complejidad crítica, el esfuerzo requerido para la inferencia en realidad muestra una reducción contraintuitiva, lo que sugiere que los grandes modelos de inferencia pueden tener un límite inherente en la escalabilidad computacional.
El equipo de investigación afirma que estas percepciones desafían las hipótesis predominantes sobre las capacidades de los grandes modelos de inferencia y sugieren que los métodos actuales pueden enfrentar obstáculos fundamentales para lograr inferencias generalizables.
Lo más notable es que el equipo de investigación observó las limitaciones de los grandes modelos de inferencia en la realización de cálculos precisos. Por ejemplo, cuando se les proporcionó el algoritmo de solución para el juego matemático de la Torre de Hanoi, su rendimiento en este problema no mejoró.
Además, un análisis profundo de los primeros errores del modelo reveló patrones de comportamiento sorprendentes. Por ejemplo, el modelo puede realizar hasta 100 movimientos correctos en las Torres de Hanoi, pero no puede proporcionar más de 5 pasos correctos en el juego de lógica del acertijo del río.
En general, el equipo de investigación considera que este artículo resalta tanto las ventajas de los grandes modelos de inferencia existentes como sus limitaciones. Las principales conclusiones de la investigación son las siguientes cinco:
En primer lugar, el equipo de investigación cuestiona el paradigma de evaluación de los actuales modelos de inferencia a gran escala en los estándares matemáticos establecidos y ha diseñado una plataforma de prueba controlada utilizando un entorno de acertijos algorítmicos.
En segundo lugar, los experimentos del equipo de investigación han demostrado que incluso los modelos de inferencia más avanzados (como o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) aún no han logrado desarrollar una capacidad de resolución de problemas generalizable. En diferentes entornos, cuando la complejidad del problema supera un cierto umbral, su tasa de precisión finalmente caerá a cero.
En tercer lugar, el equipo de investigación descubrió que existe un límite de escala relacionado con la complejidad del problema en la capacidad de inferencia de grandes modelos de inferencia, lo que puede confirmarse por la tendencia a la baja contraintuitiva en el número de tokens de pensamiento después de alcanzar un cierto punto de complejidad.
Cuarto, el equipo de investigación cuestiona el paradigma de evaluación actual basado en la precisión final, y el análisis muestra que a medida que aumenta la complejidad del problema, las soluciones correctas aparecen en una posición más posterior en el proceso de razonamiento en comparación con las soluciones incorrectas.
Quinto, el equipo de investigación reveló las sorprendentes limitaciones de los grandes modelos de razonamiento en su capacidad para realizar cálculos precisos, incluyendo su incapacidad para beneficiarse de algoritmos explícitos y la inconsistencia en el razonamiento entre diferentes tipos de acertijos.
La capacidad de autocorrección de los grandes modelos de inferencia es limitada
Se entiende que los grandes modelos de inferencia son una nueva variante derivada de los grandes modelos de lenguaje, optimizada específicamente para tareas de inferencia.
Estos modelos son nuevos productos tecnológicos, y sus características principales son mecanismos de "pensamiento" únicos, como la cadena de pensamiento (CoT) autorreflexiva, y han demostrado un excelente rendimiento en múltiples puntos de referencia de inferencia.
La aparición de estos modelos marca un posible cambio de paradigma en la forma en que los grandes modelos de lenguaje manejan el razonamiento complejo y la resolución de problemas. Algunos investigadores creen que esto representa un paso importante hacia capacidades de inteligencia artificial más generales.
A pesar de estas perspectivas y avances en el rendimiento, los beneficios y limitaciones fundamentales de los modelos de inferencia grandes aún no se comprenden completamente. Una pregunta clave sin respuesta es: ¿Estos grandes modelos de inferencia tienen capacidades de inferencia generalizadas? ¿O simplemente están aprovechando diferentes formas de coincidencia de patrones?
¿Cómo cambiará su rendimiento a medida que aumente la complejidad del problema? ¿Cómo se comparan con los modelos de lenguaje estándar que no tienen un mecanismo de "pensamiento" dado el mismo presupuesto de cálculo de tokens de razonamiento?
¿Cuáles son las limitaciones inherentes del método de inferencia actual? ¿Qué mejoras podrían ser necesarias para lograr una capacidad de inferencia más poderosa?
El equipo de investigación considera que las limitaciones del paradigma de evaluación actual han llevado a una falta de análisis sistemático sobre estos problemas. Las evaluaciones existentes se centran principalmente en estándares matemáticos establecidos y estándares de codificación. Aunque estos estándares tienen cierto valor, a menudo presentan problemas de contaminación de datos y no pueden proporcionar condiciones experimentales controlables en diferentes escenarios y complejidades.
Para entender de manera más rigurosa el comportamiento de inferencia de estos modelos, el equipo de investigación considera necesario un entorno que permita realizar experimentos controlados.
Para hacer esto, en lugar de usar un punto de referencia estándar como un problema matemático, adoptaron un entorno de rompecabezas controlado, es decir, ajustando los elementos del rompecabezas mientras conservan la lógica central, de modo que la complejidad pueda variarse sistemáticamente y se pueda examinar el proceso de solución y el proceso de razonamiento interno.
(Fuente: Archivo de imágenes)
Estos acertijos tienen las siguientes características:
(1) Capacidad para proporcionar un control preciso sobre la complejidad;
(2) Evitar la contaminación común en los estándares existentes;
(3) Solo necesita depender de reglas claramente definidas, enfatizando la capacidad de razonamiento algorítmico;
(4) Soporta evaluaciones rigurosas basadas en simuladores, lo que permite la verificación precisa de soluciones y un análisis detallado de fallos.
A través de investigaciones empíricas, revelaron varios hallazgos clave sobre los actuales modelos de razonamiento a gran escala:
Primero, aunque los grandes modelos de inferencia pueden aprender mecanismos complejos de autorreflexión a través del aprendizaje por refuerzo, no han logrado desarrollar una capacidad de resolución de problemas generalizable para tareas de planificación; después de superar un cierto umbral de complejidad, el rendimiento cae a cero.
En segundo lugar, la comparación entre modelos de inferencia a gran escala y modelos grandes estándar bajo el cálculo de inferencia equivalente por parte del equipo de investigación reveló tres mecanismos de inferencia diferentes.
El primer mecanismo es: para problemas más simples y de menor complejidad, los modelos grandes estándar muestran una mayor eficiencia y precisión.
El segundo mecanismo es que a medida que la complejidad del problema aumenta moderadamente, los modelos de inferencia grandes obtienen una ventaja.
El tercer mecanismo es que cuando el problema se vuelve más complejo a medida que aumenta la profundidad de la composición, ambos tipos de modelos experimentan una caída completa del rendimiento.
(Fuente: imagen de archivo)
Es importante señalar que, al acercarse a este punto crítico de falla, aunque la ejecución de los modelos de inferencia de gran tamaño aún no ha alcanzado el límite de longitud de generación, a medida que aumenta la complejidad del problema, comienzan a reducir la inversión en inferencia (medida por el número de tokens durante la inferencia).
(Fuente: imagen de archivo)
Esto indica que hay una limitación fundamental en la capacidad de razonamiento de los grandes modelos de inferencia: su tiempo de razonamiento aumenta significativamente con el crecimiento de la complejidad del problema.
Además, a través del análisis de las trayectorias de inferencia intermedias, el equipo de investigación descubrió fenómenos regulares relacionados con la complejidad del problema, es decir, en problemas más simples, los modelos de inferencia a menudo pueden encontrar rápidamente soluciones incorrectas, pero aún así continúan explorando opciones erróneas de manera ineficiente, fenómeno que comúnmente se conoce como "sobrepensar".
En problemas de complejidad media, el modelo necesita pasar por una extensa exploración de múltiples caminos erróneos antes de encontrar la solución correcta. Sin embargo, al superar un cierto umbral de complejidad, el modelo es completamente incapaz de encontrar la solución correcta.
Bai Ting, profesor asociado de la Universidad de Correos y Telecomunicaciones de Beijing, dijo a DeepTech que, de manera similar a la forma humana de pensar, para problemas complejos, aunque no sepan cuál es la respuesta correcta, muchas veces saben lo que es incorrecto. Específicamente, esto está relacionado con el tamaño del espacio de solución, porque el espacio de solución de problemas simples es corto y el grado de coincidencia de características es alto, la solución correcta a menudo se encuentra naturalmente en el extremo frontal del camino de pensamiento, mientras que el espacio de solución de problemas complejos se expande exponencialmente debido al acoplamiento de variables multidimensionales y el anidamiento de niveles lógicos, y el espacio de solución es enorme, lo que se manifiesta objetivamente como la postaridad relativa en la secuencia de pensamiento.
¿Qué sucede internamente en el "pensamiento" del modelo de inferencia ###?
En el estudio, la mayoría de los experimentos se realizaron en modelos de inferencia y sus contrapartes sin inferencia, como Claude 3.7 Sonnet (con inferencia/sin inferencia) y DeepSeek-R1/V3. El equipo de investigación eligió estos modelos porque, a diferencia de modelos como la serie O de OpenAI, permiten el acceso al token Thinking.
Para cada instancia de acertijo, el equipo de investigación generó 25 muestras y reportó el rendimiento promedio de cada modelo.
Para comprender más a fondo el proceso de pensamiento de los modelos de razonamiento, el equipo de investigación realizó un análisis detallado de sus huellas de razonamiento.
Durante este tiempo, a través de la construcción de un entorno experimental de acertijos, lograron un análisis profundo más allá de la respuesta final del modelo, lo que les permitió observar y analizar con mayor detalle la trayectoria de razonamiento generada (es decir, el "proceso de pensamiento").
En concreto, extrajeron y analizaron las soluciones intermedias exploradas durante el proceso de pensamiento del modelo utilizando el simulador de acertijos.
Luego, examinaron los patrones y características de estas soluciones intermedias, la precisión de las posiciones secuenciales durante el proceso de razonamiento, así como cómo estos patrones evolucionan a medida que aumenta la complejidad del problema.
En este análisis, el equipo de investigación se centró en las huellas de razonamiento producidas por el modelo de razonamiento Claude 3.7 Sonnet en el experimento del grupo de acertijos.
Para cada solución intermedia identificada en las huellas, el equipo de investigación registró lo siguiente: (1) su posición relativa en la trayectoria de razonamiento (normalizada por la longitud total del pensamiento), (2) su corrección verificada por el simulador de acertijos del equipo de investigación, (3) la complejidad del problema correspondiente.
Esto permite al equipo de investigación describir el progreso y la precisión en la formación de soluciones a lo largo de todo el proceso de razonamiento.
! lgf2esRhQ8D8S5CgvuCS4e48OS2oxOtufupMh8Dx.png
El equipo de investigación descubrió que, para problemas más simples, los modelos de razonamiento generalmente encuentran la solución correcta en las primeras etapas de la reflexión, pero luego continúan explorando métodos de solución incorrectos.
En comparación con la solución correcta (verde), la distribución de la solución incorrecta (rojo) se desplaza significativamente hacia el final de la cadena de pensamiento. Esta tendencia se invierte a medida que la complejidad del problema aumenta moderadamente: el modelo explora primero la solución incorrecta y, en su mayoría, llega a la solución correcta tarde en el pensamiento. Esta vez, la distribución de la solución incorrecta (rojo) está más sesgada hacia abajo que la solución correcta (verde).
Finalmente, para problemas de mayor complejidad, el modelo comienza a mostrar fenómenos de colapso, lo que significa que el modelo no puede generar ninguna solución correcta durante el proceso de pensamiento.
La imagen a continuación presenta un análisis adicional sobre la precisión de las soluciones dentro de los segmentos (intervalos) de la secuencia de pensamiento en el entorno de la Torre de Hanói.
! n9VEKux2mllIbnTW6RTGNTE8mxgwiElcJwe7Twum.png
Se puede observar que, para problemas más simples (valores de N más pequeños), a medida que avanza el pensamiento, la precisión de las soluciones tiende a disminuir o fluctuar, lo que proporciona más evidencia del fenómeno del exceso de pensamiento.
Sin embargo, para problemas más complejos, esta tendencia cambia: la precisión de la solución aumenta a medida que avanza el pensamiento, hasta que se alcanza un cierto umbral. Más allá de este umbral de complejidad, la precisión del modelo es cero en "modo de bloqueo".
Bai Ting le dijo a DeepTech que el modelo necesita múltiples inferencias en problemas complejos, y bajo la premisa de que no ha habido una solución correcta, es posible que el mecanismo de inferencia del modelo utilice múltiples iteraciones para generar una estrategia de optimización de la eficiencia, que puede ser una estrategia de protección de recursos para evitar demasiadas iteraciones. Por lo tanto, los hallazgos de este documento deben analizarse y verificarse cuidadosamente desde el nivel de implementación del modelo.
Bai Ting señaló que también es posible que el proceso de razonamiento de grandes modelos sea esencialmente la invocación de patrones de memoria. Para modelos como DeepSeek-R1 y o3-mini, su rendimiento depende en gran medida de la cobertura del modo de memoria en los datos de entrenamiento, y cuando la complejidad del problema supera el umbral de cobertura del modo de memoria (como el entorno de rompecabezas controlable diseñado por el equipo de investigación de Apple), el modelo cae en un estado de "precisión cero".
Aunque el entorno del acertijo permite experimentos controlados con un control de granularidad sobre la complejidad de las preguntas, estos solo representan una pequeña parte de las tareas de razonamiento y pueden no capturar la diversidad de los problemas de razonamiento del mundo real o de los que son intensivos en conocimiento.
Es importante señalar que este estudio se basa principalmente en el acceso a modelos de inferencia de vanguardia cerrados a través de API de caja negra, lo que limita al equipo de investigación para analizar su estado interno o componentes arquitectónicos.
Además, al utilizar un simulador de rompecabezas determinista, el equipo de investigación supuso que el razonamiento podría validarse perfectamente paso a paso. Sin embargo, en dominios de menor estructuración, esta validación precisa puede ser difícil de lograr, lo que limita la transferencia de este método de análisis a escenarios de razonamiento más amplios.
En general, el equipo de investigación examinó modelos de inferencia a gran escala de vanguardia desde la perspectiva de la complejidad del problema a través de un entorno de resolución de acertijos controlable. Este resultado revela las limitaciones de los modelos actuales: a pesar de sus complejos mecanismos de autorreflexión, estos modelos son incapaces de desarrollar habilidades de inferencia generalizables más allá de un cierto umbral de complejidad. El equipo de investigación cree que este resultado puede allanar el camino para estudiar las capacidades de razonamiento de estos modelos.