Les personnes qui ont utilisé le modèle DeepSeek-R1 ne sont pas étrangères à son processus de réflexion avant de donner une réponse, c'est également l'une des raisons pour lesquelles les grands modèles de raisonnement (LRM, Large Reasoning Model), y compris DeepSeek-R1, sont si prisés.
Cependant, une équipe composée de six chercheurs de la société Apple a remis cela en question. En faisant résoudre divers énigmes par le modèle, l'équipe de recherche a découvert que les modèles de raisonnement avancés tels que DeepSeek-R1, o3-mini et Claude-3.7-Sonnet-Thinking ont une précision qui s'effondre complètement au-delà d'un certain seuil de complexité.
Image | Articles connexes (source :
Il est à noter que Samy Bengio, directeur de la recherche en apprentissage automatique chez Apple, est co-auteur de cet article. Il est non seulement le frère du lauréat du prix Turing Yoshua Bengio, mais il a également été l'un des premiers membres de l'équipe Google Brain.
Image | Les six auteurs de l'article correspondant, le deuxième à droite est Samy Bengio (source : photo d'archives)
Un internaute de X a conclu qu’Apple était un Gary Marcus (Gary Marcus), en fait, Gary Marcus lui-même a également posté sur LinkedIn pour confirmer l’article d’Apple. Il a écrit : « Le dernier article d’Apple sur la capacité de « raisonner » dans les grands modèles de langage est assez impressionnant. Dans un article de long week-end, j’explique pourquoi (et explore une objection possible) pour montrer pourquoi vous ne devriez pas être trop surpris. ”
Dans le « Long Weekend Article » de Gary Marcus, il a écrit : « Ce nouvel article d’Apple soutient davantage ma propre critique : même si les soi-disant « modèles d’inférence » nouvellement développés ont itérativement surpassé la version O1, ils ne parviennent toujours pas à obtenir un raisonnement fiable hors distribution sur des problèmes classiques tels que la tour de Hanoi. C’est une mauvaise nouvelle pour les chercheurs qui espèrent que la « puissance d’inférence » ou le « calcul en temps d’inférence » remettront les grands modèles de langage sur les rails, s’éloignant de la simple mise à l’échelle et des échecs répétés (ne produisant jamais de percées technologiques dignes du nom de « GPT-5 »). ”
Image | Gary Marcus a publié un "long article de fin de semaine" sur son site personnel (source :
Alors, est-ce que c'est une "mauvaise nouvelle" ou une "bonne nouvelle" ? Commençons par les détails de cet article d'Apple.
peut effectuer jusqu'à 100 actions correctes, mais ne peut pas fournir plus de 5 étapes d'opération correctes.
Dans cette étude, l'équipe de recherche d'Apple a découvert trois modes de raisonnement différents : pour les tâches de faible complexité, les modèles de langage standard surperforment les grands modèles de raisonnement ; pour les tâches de complexité moyenne, les grands modèles de raisonnement sont plus performants ; tandis que pour les tâches de haute complexité, aucun des deux types de modèles ne parvient à accomplir efficacement la tâche.
À mesure que les problèmes atteignent une complexité critique, l'effort nécessaire pour le raisonnement semble paradoxalement diminuer, ce qui indique qu'il pourrait y avoir une limite inhérente à l'extension de l'échelle de calcul des grands modèles de raisonnement.
L'équipe de recherche a déclaré que ces idées remettent en question les hypothèses dominantes concernant les capacités des grands modèles de raisonnement et indiquent que les méthodes actuelles pourraient rencontrer des obstacles fondamentaux à la réalisation d'un raisonnement généralisable.
Il est particulièrement important de noter que l'équipe de recherche a observé les limites des grands modèles de raisonnement dans l'exécution de calculs précis. Par exemple, lorsque l'algorithme de solution pour le jeu de puzzle mathématique des tours de Hanoï a été fourni au modèle, ses performances sur ce problème n'ont pas été améliorées.
De plus, une analyse approfondie des premières erreurs du modèle a révélé des schémas de comportement surprenants. Par exemple, le modèle peut effectuer jusqu'à 100 actions correctes dans le jeu des tours de Hanoï, mais ne parvient pas à donner plus de 5 étapes correctes dans le jeu de logique du problème de la traversée.
Dans l'ensemble, l'équipe de recherche estime que cet article met en évidence à la fois les avantages des grands modèles de raisonnement existants et révèle leurs limites. Les principales conclusions de l'étude sont les suivantes :
Premièrement, l'équipe de recherche remet en question le paradigme d'évaluation des grands modèles d'inférence actuels sur des références mathématiques établies, et a conçu une plateforme de test expérimentale contrôlée en utilisant un environnement de casse-tête algorithmique.
Deuxièmement, les expériences de l'équipe de recherche montrent que même les modèles de raisonnement de grande taille les plus avancés (comme o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) n'ont toujours pas développé la capacité de résolution de problèmes généralisables. Dans différents environnements, lorsque la complexité des problèmes dépasse un certain seuil, leur taux de précision finit par tomber à zéro.
Troisièmement, l'équipe de recherche a découvert que les grands modèles d'inférence présentent une limite d'expansion liée à la complexité des questions, ce qui peut être confirmé par la tendance contre-intuitive à la baisse du nombre de tokens de pensée après avoir atteint un certain point de complexité.
Quatrièmement, l'équipe de recherche remet en question le paradigme d'évaluation actuel basé sur la précision finale, les analyses montrant qu'avec l'augmentation de la complexité des problèmes, les solutions correctes apparaissent plus tard dans le processus de raisonnement par rapport aux solutions incorrectes.
Cinquième point, l'équipe de recherche a révélé les limitations étonnantes des grands modèles de raisonnement en matière de capacité à effectuer des calculs précis, y compris leur incapacité à bénéficier d'algorithmes explicites et l'incohérence du raisonnement à travers différents types d'énigmes.
La capacité d'auto-correction des grands modèles d'inférence est limitée
Selon les informations, un grand modèle d'inférence est une nouvelle variante dérivée des grands modèles de langage, optimisée spécifiquement pour les tâches d'inférence.
Ces modèles appartiennent à de nouveaux produits technologiques, dont la caractéristique principale est un mécanisme de "pensée" unique, tel que la chaîne de pensée (CoT, Chain-of-Thought) dotée de la capacité de réflexion autonome, et ils montrent des performances exceptionnelles dans plusieurs tests de référence de raisonnement.
L'émergence de ces modèles marque peut-être un changement de paradigme dans la manière dont les grands modèles de langage traitent le raisonnement complexe et la résolution de problèmes. Certains chercheurs estiment que cela représente une étape importante vers des capacités d'intelligence artificielle plus générales.
Malgré ces perspectives et les progrès en matière de performances, les avantages et les limites fondamentaux des modèles d’inférence à grande échelle ne sont pas encore entièrement compris. Une question clé sans réponse est la suivante : ces grands modèles d’inférence ont-ils des capacités d’inférence généralisées ? Ou exploitent-ils simplement différentes formes de correspondance de motifs ?
Comment leur performance évolue-t-elle avec l'augmentation de la complexité des problèmes ? Dans le cas où le budget de calcul des tokens de raisonnement est le même, comment se comportent-elles par rapport aux modèles de langage standard qui ne possèdent pas de mécanisme de "pensée" ?
La question la plus importante est : quelles sont les limitations inhérentes de la méthode de raisonnement actuelle ? Quelles améliorations pourraient être nécessaires pour atteindre une capacité de raisonnement plus puissante ?
L’équipe de recherche soutient que les limites du paradigme d’évaluation actuel conduisent à un manque d’analyse systématique de ces questions. Les évaluations existantes se concentrent principalement sur des points de référence mathématiques et de codage établis. Bien que ces benchmarks aient une certaine valeur, ils souffrent souvent d’une contamination des données et ne peuvent pas fournir des conditions expérimentales contrôlables pour différents scénarios et complexités.
Pour comprendre plus rigoureusement le comportement d'inférence de ces modèles, l'équipe de recherche estime qu'un environnement capable de réaliser des expériences contrôlées est nécessaire.
Pour ce faire, ils n'ont pas adopté de critères standards similaires à ceux des problèmes mathématiques, mais ont plutôt choisi un environnement de puzzle contrôlable, c'est-à-dire en ajustant les éléments du puzzle tout en préservant la logique fondamentale, afin de pouvoir modifier systématiquement la complexité et d'examiner le processus de solution et le raisonnement interne.
(Source : photo d'illustration)
Ces énigmes ont les caractéristiques suivantes :
(1) Capable of providing fine control over complexity;
(2) Évitez la pollution courante dans les références existantes ;
(3) Ne dépend que des règles clairement définies, mettant l'accent sur la capacité de raisonnement algorithmique ;
(4) Prend en charge une évaluation rigoureuse basée sur un simulateur, permettant une vérification précise des solutions et une analyse détaillée des pannes.
À travers des recherches empiriques, ils ont révélé plusieurs découvertes clés concernant les grands modèles de raisonnement actuels :
Tout d'abord, bien que les grands modèles de raisonnement puissent apprendre des mécanismes complexes de réflexion personnelle grâce à l'apprentissage par renforcement, ils n'ont pas réussi à développer une capacité de résolution de problèmes généralisable pour les tâches de planification, et au-delà d'un certain seuil de complexité, les performances chutent à zéro.
Deuxièmement, l'équipe de recherche a révélé trois mécanismes de raisonnement différents par la comparaison entre les grands modèles de raisonnement et les modèles standard sous calcul de raisonnement équivalent.
Le premier mécanisme est que le grand modèle standard présente une efficacité et une précision accrues pour des problèmes plus simples et moins combinables.
Le deuxième mécanisme est le suivant : avec une augmentation modérée de la complexité des problèmes, les grands modèles de raisonnement obtiennent un avantage.
Le troisième mécanisme est le suivant : lorsque les problèmes deviennent complexes avec l'augmentation de la profondeur de combinaison, les deux types de modèles subissent un effondrement complet de performance.
(Source : image de référence)
Il est à noter qu'à l'approche de ce point critique d'échec, bien que l'exécution des grands modèles d'inférence n'ait pas encore atteint la limite de longueur de génération, avec l'augmentation de la complexité des questions, ils commencent à réduire l'investissement en inférence (mesuré par le nombre de tokens pendant l'inférence).
(Source : photo d'archive)
Cela indique qu'il existe une limitation fondamentale à la capacité de raisonnement des grands modèles de raisonnement : leur temps de raisonnement augmente de manière significative avec la complexité des problèmes.
De plus, à travers l'analyse des trajectoires de raisonnement intermédiaires, l'équipe de recherche a découvert des phénomènes réguliers liés à la complexité des problèmes, à savoir que dans les problèmes plus simples, le modèle de raisonnement peut souvent trouver rapidement des solutions incorrectes, mais continue néanmoins à explorer de manière inefficace les options erronées, ce phénomène étant ce que les gens appellent souvent "sur-analyse".
Dans un problème de complexité moyenne, le modèle doit passer par une exploration approfondie d’un grand nombre de chemins d’erreur avant de pouvoir trouver la bonne solution. Au-delà d’un certain seuil de complexité, le modèle ne sera pas en mesure de trouver la bonne solution.
Bai Ting, professeur agrégé à l’Université des postes et télécommunications de Pékin, a déclaré à DeepTech que, comme pour la pensée humaine, pour des problèmes complexes, bien qu’ils ne sachent pas quelle est la bonne réponse, ils savent souvent ce qui est incorrect. Plus précisément, cela est lié à la taille de l’espace de solution, car l’espace de résolution des problèmes simples est court et le degré d’appariement des caractéristiques est élevé, la solution correcte est souvent naturellement à l’extrémité initiale du chemin de pensée, tandis que l’espace de résolution des problèmes complexes est élargi de manière exponentielle en raison du couplage de variables multidimensionnelles et de l’imbrication des niveaux logiques, et l’espace de solution est énorme, ce qui se manifeste objectivement par la postéité relative dans la séquence de pensée.
Que se passe-t-il à l'intérieur de la "pensée" du modèle de raisonnement ### ?
Dans l’étude, la plupart des expériences ont été réalisées sur des modèles d’inférence et leurs homologues de non-inférence, tels que Claude 3.7 Sonnet (avec inférence/sans inférence) et DeepSeek-R1/V3. L’équipe de recherche a choisi ces modèles car, contrairement à des modèles tels que la série O d’OpenAI, ils permettent d’accéder au jeton Thinking.
Pour chaque instance de problème, l'équipe de recherche a généré 25 échantillons et a rapporté la performance moyenne de chaque modèle.
Pour mieux comprendre le processus de pensée des modèles de raisonnement, l'équipe de recherche a effectué une analyse détaillée de leurs traces de raisonnement.
Pendant ce temps, ils ont réalisé une analyse approfondie au-delà de la réponse finale du modèle grâce à la construction d'un environnement expérimental de puzzle, ce qui leur a permis d'observer et d'analyser de manière plus précise la trajectoire de raisonnement générée (c'est-à-dire le "processus de pensée").
Plus précisément, ils ont extrait et analysé les solutions intermédiaires explorées par le modèle de pensée à l'aide d'un simulateur de puzzle.
Ensuite, ils ont examiné les modèles et les caractéristiques de ces solutions intermédiaires, la précision de la position séquentielle par rapport au processus de raisonnement, ainsi que la manière dont ces modèles évoluent avec l'augmentation de la complexité des problèmes.
Pour cette analyse, l'équipe de recherche s'est concentrée sur les traces de raisonnement produites par le modèle de raisonnement Claude 3.7 Sonnet lors de l'expérience du groupe de puzzles.
Pour chaque solution intermédiaire identifiée dans la trace, l’équipe de recherche a enregistré les éléments suivants : (1) sa position relative dans la trajectoire de raisonnement (normalisée par la longueur totale de la pensée), (2) sa justesse telle que vérifiée par le simulateur de puzzle de l’équipe de recherche, et (3) la complexité du problème correspondant.
Cela permet à l'équipe de recherche de décrire les progrès et l'exactitude de la formation de solutions tout au long du processus de raisonnement.
L'équipe de recherche a découvert que, pour des problèmes plus simples, les modèles de raisonnement trouvent généralement la bonne solution au début de la réflexion, mais continuent ensuite à explorer des méthodes de résolution incorrectes.
Par rapport à la bonne solution (vert), la distribution de la mauvaise solution (rouge) est significativement décalée vers la fin de la chaîne de pensée. Cette tendance s’inverse à mesure que la complexité du problème augmente modérément : le modèle explore d’abord la mauvaise solution et arrive généralement à la bonne solution tard dans la réflexion. Cette fois, la distribution de la mauvaise solution (rouge) est plus asymétrique vers le bas que la bonne solution (vert).
Enfin, pour les problèmes plus complexes, le modèle commence à planter, ce qui signifie que le modèle ne peut générer aucune solution correcte pendant le processus de réflexion.
La figure ci-dessous présente une analyse complémentaire de l'exactitude des solutions dans les segments (intervalles) de la séquence de pensée dans l'environnement de la tour de Hanoi.
Il peut être observé que, pour des problèmes relativement simples (valeurs de N plus petites), à mesure que la réflexion progresse, la précision des solutions tend souvent à diminuer ou à fluctuer, ce qui fournit des preuves supplémentaires du phénomène de suranalyse.
Cependant, pour des problèmes plus complexes, cette tendance peut changer - la précision des solutions augmente à mesure que la réflexion progresse, jusqu'à atteindre un certain seuil. Au-delà de ce seuil de complexité, en "mode effondrement", la précision du modèle est nulle.
Bai Ting a déclaré à DeepTech que le modèle a besoin de plusieurs inférences dans des problèmes complexes, et en partant du principe qu’il n’y a pas eu de solution correcte, il est possible que le mécanisme d’inférence du modèle utilise plusieurs itérations pour générer une stratégie d’optimisation de l’efficacité, qui peut être une stratégie de protection des ressources pour éviter trop d’itérations. Par conséquent, les résultats de ce document doivent être soigneusement analysés et vérifiés au niveau de la mise en œuvre du modèle.
Bai Ting a souligné qu’il est également possible que le processus de raisonnement des grands modèles soit essentiellement l’invocation de modèles de mémoire. Pour des modèles tels que DeepSeek-R1 et o3-mini, leurs performances dépendent fortement de la couverture du mode mémoire dans les données d’entraînement, et lorsque la complexité du problème dépasse le seuil de couverture du mode mémoire (comme l’environnement de puzzle contrôlable conçu par l’équipe de recherche d’Apple), le modèle tombe dans un état de « précision zéro ».
Bien que cet environnement de problème permette des expériences contrôlées avec un contrôle granulaire de la complexité des questions, elles ne représentent qu'une petite partie des tâches de raisonnement et peuvent ne pas capturer la diversité des problèmes de raisonnement du monde réel ou des problèmes de raisonnement intensifs en connaissances.
Il convient de noter que cette étude est principalement basée sur l'accès à un modèle de grande inférence avancé via une API en boîte noire, cette limitation empêchant l'équipe de recherche d'analyser son état interne ou ses composants d'architecture.
De plus, en utilisant un simulateur de problèmes déterministes, l'équipe de recherche suppose que le raisonnement peut être vérifié parfaitement étape par étape. Cependant, dans des domaines moins structurés, cette vérification précise peut être difficile à réaliser, limitant ainsi la transférabilité de cette méthode d'analyse à des scénarios de raisonnement plus larges.
Dans l’ensemble, l’équipe de recherche a examiné des modèles d’inférence à grande échelle de pointe du point de vue de la complexité des problèmes à travers un environnement de résolution d’énigmes contrôlable. Ce résultat révèle les limites des modèles actuels : malgré leurs mécanismes d’autoréflexion complexes, ces modèles sont incapables de développer des compétences d’inférence généralisables au-delà d’un certain seuil de complexité. L’équipe de recherche estime que ce résultat pourrait ouvrir la voie à l’étude des capacités de raisonnement de ces modèles.
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
L'analyse du nouveau document d'Apple sur le problème de l'effondrement de la précision de DeepSeek-R1
Les personnes qui ont utilisé le modèle DeepSeek-R1 ne sont pas étrangères à son processus de réflexion avant de donner une réponse, c'est également l'une des raisons pour lesquelles les grands modèles de raisonnement (LRM, Large Reasoning Model), y compris DeepSeek-R1, sont si prisés.
Cependant, une équipe composée de six chercheurs de la société Apple a remis cela en question. En faisant résoudre divers énigmes par le modèle, l'équipe de recherche a découvert que les modèles de raisonnement avancés tels que DeepSeek-R1, o3-mini et Claude-3.7-Sonnet-Thinking ont une précision qui s'effondre complètement au-delà d'un certain seuil de complexité.
Image | Articles connexes (source :
Il est à noter que Samy Bengio, directeur de la recherche en apprentissage automatique chez Apple, est co-auteur de cet article. Il est non seulement le frère du lauréat du prix Turing Yoshua Bengio, mais il a également été l'un des premiers membres de l'équipe Google Brain.
Image | Les six auteurs de l'article correspondant, le deuxième à droite est Samy Bengio (source : photo d'archives)
Un internaute de X a conclu qu’Apple était un Gary Marcus (Gary Marcus), en fait, Gary Marcus lui-même a également posté sur LinkedIn pour confirmer l’article d’Apple. Il a écrit : « Le dernier article d’Apple sur la capacité de « raisonner » dans les grands modèles de langage est assez impressionnant. Dans un article de long week-end, j’explique pourquoi (et explore une objection possible) pour montrer pourquoi vous ne devriez pas être trop surpris. ”
Dans le « Long Weekend Article » de Gary Marcus, il a écrit : « Ce nouvel article d’Apple soutient davantage ma propre critique : même si les soi-disant « modèles d’inférence » nouvellement développés ont itérativement surpassé la version O1, ils ne parviennent toujours pas à obtenir un raisonnement fiable hors distribution sur des problèmes classiques tels que la tour de Hanoi. C’est une mauvaise nouvelle pour les chercheurs qui espèrent que la « puissance d’inférence » ou le « calcul en temps d’inférence » remettront les grands modèles de langage sur les rails, s’éloignant de la simple mise à l’échelle et des échecs répétés (ne produisant jamais de percées technologiques dignes du nom de « GPT-5 »). ”
Image | Gary Marcus a publié un "long article de fin de semaine" sur son site personnel (source :
Alors, est-ce que c'est une "mauvaise nouvelle" ou une "bonne nouvelle" ? Commençons par les détails de cet article d'Apple.
peut effectuer jusqu'à 100 actions correctes, mais ne peut pas fournir plus de 5 étapes d'opération correctes.
Dans cette étude, l'équipe de recherche d'Apple a découvert trois modes de raisonnement différents : pour les tâches de faible complexité, les modèles de langage standard surperforment les grands modèles de raisonnement ; pour les tâches de complexité moyenne, les grands modèles de raisonnement sont plus performants ; tandis que pour les tâches de haute complexité, aucun des deux types de modèles ne parvient à accomplir efficacement la tâche.
À mesure que les problèmes atteignent une complexité critique, l'effort nécessaire pour le raisonnement semble paradoxalement diminuer, ce qui indique qu'il pourrait y avoir une limite inhérente à l'extension de l'échelle de calcul des grands modèles de raisonnement.
L'équipe de recherche a déclaré que ces idées remettent en question les hypothèses dominantes concernant les capacités des grands modèles de raisonnement et indiquent que les méthodes actuelles pourraient rencontrer des obstacles fondamentaux à la réalisation d'un raisonnement généralisable.
Il est particulièrement important de noter que l'équipe de recherche a observé les limites des grands modèles de raisonnement dans l'exécution de calculs précis. Par exemple, lorsque l'algorithme de solution pour le jeu de puzzle mathématique des tours de Hanoï a été fourni au modèle, ses performances sur ce problème n'ont pas été améliorées.
De plus, une analyse approfondie des premières erreurs du modèle a révélé des schémas de comportement surprenants. Par exemple, le modèle peut effectuer jusqu'à 100 actions correctes dans le jeu des tours de Hanoï, mais ne parvient pas à donner plus de 5 étapes correctes dans le jeu de logique du problème de la traversée.
Dans l'ensemble, l'équipe de recherche estime que cet article met en évidence à la fois les avantages des grands modèles de raisonnement existants et révèle leurs limites. Les principales conclusions de l'étude sont les suivantes :
Premièrement, l'équipe de recherche remet en question le paradigme d'évaluation des grands modèles d'inférence actuels sur des références mathématiques établies, et a conçu une plateforme de test expérimentale contrôlée en utilisant un environnement de casse-tête algorithmique.
Deuxièmement, les expériences de l'équipe de recherche montrent que même les modèles de raisonnement de grande taille les plus avancés (comme o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) n'ont toujours pas développé la capacité de résolution de problèmes généralisables. Dans différents environnements, lorsque la complexité des problèmes dépasse un certain seuil, leur taux de précision finit par tomber à zéro.
Troisièmement, l'équipe de recherche a découvert que les grands modèles d'inférence présentent une limite d'expansion liée à la complexité des questions, ce qui peut être confirmé par la tendance contre-intuitive à la baisse du nombre de tokens de pensée après avoir atteint un certain point de complexité.
Quatrièmement, l'équipe de recherche remet en question le paradigme d'évaluation actuel basé sur la précision finale, les analyses montrant qu'avec l'augmentation de la complexité des problèmes, les solutions correctes apparaissent plus tard dans le processus de raisonnement par rapport aux solutions incorrectes.
Cinquième point, l'équipe de recherche a révélé les limitations étonnantes des grands modèles de raisonnement en matière de capacité à effectuer des calculs précis, y compris leur incapacité à bénéficier d'algorithmes explicites et l'incohérence du raisonnement à travers différents types d'énigmes.
La capacité d'auto-correction des grands modèles d'inférence est limitée
Selon les informations, un grand modèle d'inférence est une nouvelle variante dérivée des grands modèles de langage, optimisée spécifiquement pour les tâches d'inférence.
Ces modèles appartiennent à de nouveaux produits technologiques, dont la caractéristique principale est un mécanisme de "pensée" unique, tel que la chaîne de pensée (CoT, Chain-of-Thought) dotée de la capacité de réflexion autonome, et ils montrent des performances exceptionnelles dans plusieurs tests de référence de raisonnement.
L'émergence de ces modèles marque peut-être un changement de paradigme dans la manière dont les grands modèles de langage traitent le raisonnement complexe et la résolution de problèmes. Certains chercheurs estiment que cela représente une étape importante vers des capacités d'intelligence artificielle plus générales.
Malgré ces perspectives et les progrès en matière de performances, les avantages et les limites fondamentaux des modèles d’inférence à grande échelle ne sont pas encore entièrement compris. Une question clé sans réponse est la suivante : ces grands modèles d’inférence ont-ils des capacités d’inférence généralisées ? Ou exploitent-ils simplement différentes formes de correspondance de motifs ?
Comment leur performance évolue-t-elle avec l'augmentation de la complexité des problèmes ? Dans le cas où le budget de calcul des tokens de raisonnement est le même, comment se comportent-elles par rapport aux modèles de langage standard qui ne possèdent pas de mécanisme de "pensée" ?
La question la plus importante est : quelles sont les limitations inhérentes de la méthode de raisonnement actuelle ? Quelles améliorations pourraient être nécessaires pour atteindre une capacité de raisonnement plus puissante ?
L’équipe de recherche soutient que les limites du paradigme d’évaluation actuel conduisent à un manque d’analyse systématique de ces questions. Les évaluations existantes se concentrent principalement sur des points de référence mathématiques et de codage établis. Bien que ces benchmarks aient une certaine valeur, ils souffrent souvent d’une contamination des données et ne peuvent pas fournir des conditions expérimentales contrôlables pour différents scénarios et complexités.
Pour comprendre plus rigoureusement le comportement d'inférence de ces modèles, l'équipe de recherche estime qu'un environnement capable de réaliser des expériences contrôlées est nécessaire.
Pour ce faire, ils n'ont pas adopté de critères standards similaires à ceux des problèmes mathématiques, mais ont plutôt choisi un environnement de puzzle contrôlable, c'est-à-dire en ajustant les éléments du puzzle tout en préservant la logique fondamentale, afin de pouvoir modifier systématiquement la complexité et d'examiner le processus de solution et le raisonnement interne.
(Source : photo d'illustration)
Ces énigmes ont les caractéristiques suivantes :
(1) Capable of providing fine control over complexity;
(2) Évitez la pollution courante dans les références existantes ;
(3) Ne dépend que des règles clairement définies, mettant l'accent sur la capacité de raisonnement algorithmique ;
(4) Prend en charge une évaluation rigoureuse basée sur un simulateur, permettant une vérification précise des solutions et une analyse détaillée des pannes.
À travers des recherches empiriques, ils ont révélé plusieurs découvertes clés concernant les grands modèles de raisonnement actuels :
Tout d'abord, bien que les grands modèles de raisonnement puissent apprendre des mécanismes complexes de réflexion personnelle grâce à l'apprentissage par renforcement, ils n'ont pas réussi à développer une capacité de résolution de problèmes généralisable pour les tâches de planification, et au-delà d'un certain seuil de complexité, les performances chutent à zéro.
Deuxièmement, l'équipe de recherche a révélé trois mécanismes de raisonnement différents par la comparaison entre les grands modèles de raisonnement et les modèles standard sous calcul de raisonnement équivalent.
Le premier mécanisme est que le grand modèle standard présente une efficacité et une précision accrues pour des problèmes plus simples et moins combinables.
Le deuxième mécanisme est le suivant : avec une augmentation modérée de la complexité des problèmes, les grands modèles de raisonnement obtiennent un avantage.
Le troisième mécanisme est le suivant : lorsque les problèmes deviennent complexes avec l'augmentation de la profondeur de combinaison, les deux types de modèles subissent un effondrement complet de performance.
(Source : image de référence)
Il est à noter qu'à l'approche de ce point critique d'échec, bien que l'exécution des grands modèles d'inférence n'ait pas encore atteint la limite de longueur de génération, avec l'augmentation de la complexité des questions, ils commencent à réduire l'investissement en inférence (mesuré par le nombre de tokens pendant l'inférence).
(Source : photo d'archive)
Cela indique qu'il existe une limitation fondamentale à la capacité de raisonnement des grands modèles de raisonnement : leur temps de raisonnement augmente de manière significative avec la complexité des problèmes.
De plus, à travers l'analyse des trajectoires de raisonnement intermédiaires, l'équipe de recherche a découvert des phénomènes réguliers liés à la complexité des problèmes, à savoir que dans les problèmes plus simples, le modèle de raisonnement peut souvent trouver rapidement des solutions incorrectes, mais continue néanmoins à explorer de manière inefficace les options erronées, ce phénomène étant ce que les gens appellent souvent "sur-analyse".
Dans un problème de complexité moyenne, le modèle doit passer par une exploration approfondie d’un grand nombre de chemins d’erreur avant de pouvoir trouver la bonne solution. Au-delà d’un certain seuil de complexité, le modèle ne sera pas en mesure de trouver la bonne solution.
Bai Ting, professeur agrégé à l’Université des postes et télécommunications de Pékin, a déclaré à DeepTech que, comme pour la pensée humaine, pour des problèmes complexes, bien qu’ils ne sachent pas quelle est la bonne réponse, ils savent souvent ce qui est incorrect. Plus précisément, cela est lié à la taille de l’espace de solution, car l’espace de résolution des problèmes simples est court et le degré d’appariement des caractéristiques est élevé, la solution correcte est souvent naturellement à l’extrémité initiale du chemin de pensée, tandis que l’espace de résolution des problèmes complexes est élargi de manière exponentielle en raison du couplage de variables multidimensionnelles et de l’imbrication des niveaux logiques, et l’espace de solution est énorme, ce qui se manifeste objectivement par la postéité relative dans la séquence de pensée.
Que se passe-t-il à l'intérieur de la "pensée" du modèle de raisonnement ### ?
Dans l’étude, la plupart des expériences ont été réalisées sur des modèles d’inférence et leurs homologues de non-inférence, tels que Claude 3.7 Sonnet (avec inférence/sans inférence) et DeepSeek-R1/V3. L’équipe de recherche a choisi ces modèles car, contrairement à des modèles tels que la série O d’OpenAI, ils permettent d’accéder au jeton Thinking.
Pour chaque instance de problème, l'équipe de recherche a généré 25 échantillons et a rapporté la performance moyenne de chaque modèle.
Pour mieux comprendre le processus de pensée des modèles de raisonnement, l'équipe de recherche a effectué une analyse détaillée de leurs traces de raisonnement.
Pendant ce temps, ils ont réalisé une analyse approfondie au-delà de la réponse finale du modèle grâce à la construction d'un environnement expérimental de puzzle, ce qui leur a permis d'observer et d'analyser de manière plus précise la trajectoire de raisonnement générée (c'est-à-dire le "processus de pensée").
Plus précisément, ils ont extrait et analysé les solutions intermédiaires explorées par le modèle de pensée à l'aide d'un simulateur de puzzle.
Ensuite, ils ont examiné les modèles et les caractéristiques de ces solutions intermédiaires, la précision de la position séquentielle par rapport au processus de raisonnement, ainsi que la manière dont ces modèles évoluent avec l'augmentation de la complexité des problèmes.
Pour cette analyse, l'équipe de recherche s'est concentrée sur les traces de raisonnement produites par le modèle de raisonnement Claude 3.7 Sonnet lors de l'expérience du groupe de puzzles.
Pour chaque solution intermédiaire identifiée dans la trace, l’équipe de recherche a enregistré les éléments suivants : (1) sa position relative dans la trajectoire de raisonnement (normalisée par la longueur totale de la pensée), (2) sa justesse telle que vérifiée par le simulateur de puzzle de l’équipe de recherche, et (3) la complexité du problème correspondant.
Cela permet à l'équipe de recherche de décrire les progrès et l'exactitude de la formation de solutions tout au long du processus de raisonnement.
! [lgf2esRhQ8D8S5CgvuCS4e48OS2oxOtufupMh8Dx.png](https ://img.gateio.im/social/moments-ccc00958056acb2b75ba92bfa4f2d1a6 « 7375006")
L'équipe de recherche a découvert que, pour des problèmes plus simples, les modèles de raisonnement trouvent généralement la bonne solution au début de la réflexion, mais continuent ensuite à explorer des méthodes de résolution incorrectes.
Par rapport à la bonne solution (vert), la distribution de la mauvaise solution (rouge) est significativement décalée vers la fin de la chaîne de pensée. Cette tendance s’inverse à mesure que la complexité du problème augmente modérément : le modèle explore d’abord la mauvaise solution et arrive généralement à la bonne solution tard dans la réflexion. Cette fois, la distribution de la mauvaise solution (rouge) est plus asymétrique vers le bas que la bonne solution (vert).
Enfin, pour les problèmes plus complexes, le modèle commence à planter, ce qui signifie que le modèle ne peut générer aucune solution correcte pendant le processus de réflexion.
La figure ci-dessous présente une analyse complémentaire de l'exactitude des solutions dans les segments (intervalles) de la séquence de pensée dans l'environnement de la tour de Hanoi.
! [n9VEKux2mllIbnTW6RTGNTE8mxgwiElcJwe7Twum.png](https ://img.gateio.im/social/moments-a0586ad31fe4ba9376e30739f9c2e433 « 7375007")
Il peut être observé que, pour des problèmes relativement simples (valeurs de N plus petites), à mesure que la réflexion progresse, la précision des solutions tend souvent à diminuer ou à fluctuer, ce qui fournit des preuves supplémentaires du phénomène de suranalyse.
Cependant, pour des problèmes plus complexes, cette tendance peut changer - la précision des solutions augmente à mesure que la réflexion progresse, jusqu'à atteindre un certain seuil. Au-delà de ce seuil de complexité, en "mode effondrement", la précision du modèle est nulle.
Bai Ting a déclaré à DeepTech que le modèle a besoin de plusieurs inférences dans des problèmes complexes, et en partant du principe qu’il n’y a pas eu de solution correcte, il est possible que le mécanisme d’inférence du modèle utilise plusieurs itérations pour générer une stratégie d’optimisation de l’efficacité, qui peut être une stratégie de protection des ressources pour éviter trop d’itérations. Par conséquent, les résultats de ce document doivent être soigneusement analysés et vérifiés au niveau de la mise en œuvre du modèle.
Bai Ting a souligné qu’il est également possible que le processus de raisonnement des grands modèles soit essentiellement l’invocation de modèles de mémoire. Pour des modèles tels que DeepSeek-R1 et o3-mini, leurs performances dépendent fortement de la couverture du mode mémoire dans les données d’entraînement, et lorsque la complexité du problème dépasse le seuil de couverture du mode mémoire (comme l’environnement de puzzle contrôlable conçu par l’équipe de recherche d’Apple), le modèle tombe dans un état de « précision zéro ».
Bien que cet environnement de problème permette des expériences contrôlées avec un contrôle granulaire de la complexité des questions, elles ne représentent qu'une petite partie des tâches de raisonnement et peuvent ne pas capturer la diversité des problèmes de raisonnement du monde réel ou des problèmes de raisonnement intensifs en connaissances.
Il convient de noter que cette étude est principalement basée sur l'accès à un modèle de grande inférence avancé via une API en boîte noire, cette limitation empêchant l'équipe de recherche d'analyser son état interne ou ses composants d'architecture.
De plus, en utilisant un simulateur de problèmes déterministes, l'équipe de recherche suppose que le raisonnement peut être vérifié parfaitement étape par étape. Cependant, dans des domaines moins structurés, cette vérification précise peut être difficile à réaliser, limitant ainsi la transférabilité de cette méthode d'analyse à des scénarios de raisonnement plus larges.
Dans l’ensemble, l’équipe de recherche a examiné des modèles d’inférence à grande échelle de pointe du point de vue de la complexité des problèmes à travers un environnement de résolution d’énigmes contrôlable. Ce résultat révèle les limites des modèles actuels : malgré leurs mécanismes d’autoréflexion complexes, ces modèles sont incapables de développer des compétences d’inférence généralisables au-delà d’un certain seuil de complexité. L’équipe de recherche estime que ce résultat pourrait ouvrir la voie à l’étude des capacités de raisonnement de ces modèles.