Análise da nova pesquisa da Apple sobre o problema de colapso da precisão do DeepSeek-R1

Acredita-se que aqueles que já usaram o modelo DeepSeek-R1 não são estranhos ao seu processo de pensamento antes de fornecer uma resposta, e essa é uma das razões pelas quais os grandes modelos de raciocínio (LRM, Large Reasoning Model), incluindo o DeepSeek-R1, são tão respeitados.

No entanto, uma equipe composta por seis pesquisadores da Apple levantou questionamentos sobre isso. Ao fazer com que o modelo respondesse a vários enigmas, a equipe de pesquisa descobriu que os modelos de raciocínio em larga escala DeepSeek-R1, o3-mini e Claude-3.7-Sonnet-Thinking apresentavam uma falha generalizada na precisão após ultrapassarem um certo limite de complexidade.

Imagem | Artigos relacionados (Fonte:

É importante notar que Samy Bengio, diretor sênior de pesquisa em aprendizado de máquina da Apple, é coautor deste artigo. Ele é não apenas irmão do vencedor do Prêmio Turing Yoshua Bengio, mas também foi um dos primeiros membros da equipe do Google Brain.

Imagem | Seis autores do artigo relacionado, o segundo da direita é Samy Bengio (Fonte: Imagem de arquivo)

Um internauta no X concluiu que a Apple era um Gary Marcus (Gary Marcus), na verdade, o próprio Gary Marcus também postou no LinkedIn para confirmar o artigo da Apple. Ele escreveu: "O último artigo da Apple sobre a capacidade de 'raciocinar' em grandes modelos de linguagem é bastante impressionante. Em um artigo de fim de semana prolongado, eu explico o porquê (e exploro uma possível objeção) para mostrar por que você não deve ficar muito surpreso. ”

No "Long Weekend Article" de Gary Marcus, ele escreveu: "Este novo artigo da Apple apoia ainda mais minha própria crítica: embora os chamados 'modelos de inferência' recém-desenvolvidos tenham superado iterativamente a versão O1, eles ainda não conseguem alcançar um raciocínio confiável fora de distribuição sobre problemas clássicos como a Torre de Hanói." Esta é uma má notícia para os investigadores, que esperam que o "poder de inferência" ou a "computação em tempo de inferência" façam com que os grandes modelos linguísticos voltem aos trilhos, afastando-se de simples scale-up e falhas repetidas (nunca produzindo avanços tecnológicos dignos do nome "GPT-5"). ”

Imagem | Gary Marcus postou um "texto longo de fim de semana" em seu site pessoal (Fonte:

Então, isso é realmente uma "má notícia" ou uma "boa notícia"? Vamos começar pelos detalhes do artigo da Apple.

pode realizar até 100 ações corretas, mas não consegue fornecer operações corretas além de 5 passos.

No estudo, a equipe de pesquisa da Apple encontrou três modelos de inferência diferentes: em tarefas de baixa complexidade, o modelo padrão de linguagem grande superou o modelo de grande inferência; Em tarefas de média complexidade, os modelos de inferência de grande porte têm melhor desempenho. No entanto, em tarefas de alta complexidade, nenhum tipo de modelo pode efetivamente concluir a tarefa.

À medida que os problemas se aproximam de uma complexidade crítica, o esforço necessário para a inferência diminui de maneira contra-intuitiva, o que sugere que os grandes modelos de inferência podem ter um limite inerente na expansão da escala computacional.

De acordo com a equipe de pesquisa, esses insights desafiam as suposições predominantes sobre as capacidades de grandes modelos de inferência e sugerem que os métodos atuais podem ter barreiras fundamentais para alcançar inferência generalizável.

O mais notável é que a equipe de pesquisa observou as limitações dos grandes modelos de raciocínio na execução de cálculos precisos. Por exemplo, quando um algoritmo de resolução do jogo de raciocínio matemático Torre de Hanói foi fornecido ao modelo, o seu desempenho nesse problema não melhorou.

Além disso, uma análise aprofundada dos primeiros passos falhados do modelo revelou padrões surpreendentes de comportamento. Por exemplo, o modelo pode completar até 100 movimentos corretos na Torre de Hanói, mas não pode dar mais de 5 movimentos corretos no jogo de raciocínio lógico River Crossing Puzzle.

De forma geral, a equipe de pesquisa acredita que este artigo destaca tanto as vantagens dos atuais modelos de raciocínio em larga escala, quanto revela suas limitações, sendo as principais conclusões da pesquisa as seguintes cinco:

Primeiro, a equipe de pesquisa questionou o paradigma de avaliação dos atuais grandes modelos de inferência em benchmarks matemáticos estabelecidos e projetou uma plataforma de teste experimental controlada utilizando um ambiente de quebra-cabeças algorítmico.

Em segundo lugar, os experimentos da equipe de pesquisa mostram que mesmo os modelos de inferência em larga escala mais avançados (por exemplo, o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) ainda não conseguem desenvolver capacidades generalizáveis de resolução de problemas. Em diferentes ambientes, quando a complexidade de um problema excede um determinado limite, sua precisão eventualmente cai para zero.

Em terceiro lugar, a equipe de pesquisa descobriu que há um limite de escala relacionado à complexidade do problema na capacidade de inferência de grandes modelos de inferência, o que pode ser confirmado pela tendência contraintuitiva de queda no número de tokens de pensamento depois de atingir um certo ponto de complexidade.

Quarto, a equipe de pesquisa questionou o paradigma de avaliação atual baseado na taxa de precisão final, com a análise mostrando que, à medida que a complexidade das questões aumenta, as respostas corretas aparecem em uma posição posterior no processo de raciocínio em comparação com as respostas erradas.

Quinto, a equipe de pesquisa revelou as incríveis limitações dos grandes modelos de inferência em sua capacidade de realizar cálculos precisos, incluindo a incapacidade de se beneficiar de algoritmos explícitos e a inconsistência na inferência entre diferentes tipos de quebra-cabeças.

A capacidade de autocorreção de grandes modelos de raciocínio é limitada

De acordo com informações, o grande modelo de inferência é uma nova variante derivada de grandes modelos de linguagem, otimizada especificamente para tarefas de inferência.

Esses modelos são novos produtos tecnológicos, e suas principais características são mecanismos únicos de "pensamento", como a Cadeia de Pensamento (CoT) autorreflexiva, e têm demonstrado excelente desempenho em múltiplos benchmarks de inferência.

A emergência desses modelos marca uma possível mudança de paradigma na forma como os grandes modelos de linguagem lidam com raciocínios complexos e resolução de problemas. Alguns pesquisadores acreditam que isso representa um passo importante em direção a capacidades de inteligência artificial mais gerais.

Apesar de já existirem estas perspetivas e avanços de desempenho, as vantagens e limitações fundamentais dos grandes modelos de raciocínio ainda não foram plenamente compreendidas. Uma questão chave que ainda não foi respondida é: será que estes grandes modelos de raciocínio possuem a capacidade de raciocínio generalizado? Ou será que estão apenas a tirar partido de diferentes formas de correspondência de padrões?

À medida que a complexidade dos problemas aumenta, como é que o seu desempenho muda? Com um orçamento de cálculo de token de raciocínio igual, como se comportam em comparação com modelos de linguagem padrão que não possuem um mecanismo de "pensamento"?

Qual é a limitação inerente do método de raciocínio atual? Quais melhorias podem ser necessárias para alcançar uma capacidade de raciocínio mais poderosa?

A equipa de investigação argumenta que as limitações do atual paradigma de avaliação levam a uma falta de análise sistemática destas questões. As avaliações existentes concentram-se principalmente em parâmetros matemáticos e de codificação estabelecidos. Embora estes parâmetros de referência tenham algum valor, sofrem frequentemente de contaminação de dados e não podem fornecer condições experimentais controláveis para diferentes cenários e complexidades.

Para entender de forma mais rigorosa o comportamento de inferência desses modelos, a equipe de pesquisa acredita que é necessário um ambiente que permita realizar experimentos controlados.

Para fazer isso, em vez de usar um benchmark padrão como um problema de matemática, eles adotaram um ambiente de quebra-cabeça controlado, ou seja, ajustando os elementos do quebra-cabeça, mantendo a lógica central, para que a complexidade possa ser sistematicamente variada, e o processo de solução e o processo de raciocínio interno possam ser examinados.

!

(Fonte: Imagem de arquivo)

Esses enigmas têm as seguintes características:

(1) Capacidade de fornecer um controle detalhado sobre a complexidade;

(2) Evitar a contaminação comum nos padrões existentes;

(3) Apenas depende de regras claramente definidas, enfatizando a capacidade de raciocínio algorítmico;

(4) Suporta avaliações rigorosas baseadas em simuladores, permitindo verificações precisas de soluções e análises detalhadas de falhas.

Através de pesquisas empíricas, revelaram várias descobertas-chave sobre os atuais grandes modelos de raciocínio:

Primeiro, embora os grandes modelos de raciocínio possam aprender mecanismos complexos de autorreflexão através do aprendizado por reforço, eles não conseguiram desenvolver uma capacidade de resolução de problemas que se generalize para tarefas de planejamento, com o desempenho caindo para zero após um determinado limite de complexidade.

Em segundo lugar, a equipe de pesquisa, sob cálculo de raciocínio equivalente, comparou grandes modelos de raciocínio e modelos padrão, revelando três mecanismos de raciocínio diferentes.

O primeiro mecanismo é: para questões mais simples e com menor complexidade, os grandes modelos padrão demonstram maior eficiência e precisão.

O segundo mecanismo é: à medida que a complexidade dos problemas aumenta moderadamente, os grandes modelos de inferência obtêm vantagens.

O terceiro mecanismo é que, quando o problema se torna mais complexo à medida que a profundidade da composição aumenta, ambos os tipos de modelos experimentam uma falha completa de desempenho.

(Fonte: Imagem de arquivo)

É importante notar que, à medida que a complexidade do problema aumenta, grandes modelos de inferência começam a reduzir seu esforço de inferência (medido pelo número de tokens no momento da inferência), mesmo que estejam longe de atingir o limite de comprimento de geração à medida que a complexidade do problema aumenta.

(Fonte: imagem de arquivo)

Isto indica que existe uma limitação fundamental na capacidade de raciocínio de grandes modelos de raciocínio: o seu tempo de raciocínio aumenta significativamente à medida que a complexidade dos problemas cresce.

Além disso, através da análise das trajetórias de raciocínio intermediárias, a equipe de pesquisa descobriu fenômenos regulares relacionados à complexidade das questões, ou seja, em questões mais simples, o modelo de raciocínio geralmente consegue encontrar rapidamente soluções erradas, mas ainda assim continua a explorar opções erradas de forma ineficiente, fenômeno esse que é comumente referido como "pensamento excessivo".

Em um problema de média complexidade, o modelo precisa passar por uma exploração extensiva de um grande número de caminhos de erro antes de encontrar a solução correta. Para além de um determinado limiar de complexidade, o modelo não será capaz de encontrar a solução correta.

Bai Ting, professor associado da Universidade de Correios e Telecomunicações de Pequim, disse à DeepTech que, semelhante à maneira humana de pensar, para problemas complexos, embora eles não saibam qual é a resposta certa, muitas vezes eles sabem o que é incorreto. Especificamente, isso está relacionado ao tamanho do espaço de solução, porque o espaço de solução de problemas simples é curto e o grau de correspondência de recursos é alto, a solução correta muitas vezes está naturalmente na extremidade frontal do caminho de pensamento, enquanto o espaço de solução de problemas complexos é exponencialmente expandido devido ao acoplamento de variáveis multidimensionais e ao aninhamento de níveis lógicos, e o espaço de solução é enorme, o que se manifesta objetivamente como a postaridade relativa na sequência de pensamento.

O que acontece internamente no "pensamento" do modelo de inferência?

No estudo, a maioria dos experimentos foi realizada em modelos de inferência e seus homólogos não inferentes, como Claude 3.7 Sonnet (com inferência/sem inferência) e DeepSeek-R1/V3. A equipa de investigação escolheu estes modelos porque, ao contrário de modelos como a série O da OpenAI, permitem o acesso ao token Thinking.

Para cada instância de quebra-cabeça, a equipe de pesquisa gerou 25 amostras e relatou o desempenho médio de cada modelo.

Para entender melhor o processo de pensamento dos modelos de raciocínio, a equipe de pesquisa realizou uma análise detalhada das suas marcas de raciocínio.

Durante este período, eles realizaram uma análise profunda além da resposta final do modelo através da construção de um ambiente experimental de quebra-cabeças, permitindo uma observação e análise mais detalhadas de sua trajetória de raciocínio gerada (ou seja, o "processo de pensamento").

Especificamente, eles utilizaram um simulador de quebra-cabeças para extrair e analisar as soluções intermediárias exploradas durante o processo de pensamento do modelo.

Em seguida, eles examinaram os padrões e características dessas soluções intermediárias, a precisão da posição sequencial durante o processo de raciocínio e como esses padrões evoluem à medida que a complexidade dos problemas aumenta.

Para esta análise, a equipe de pesquisa concentrou-se nas marcas de raciocínio geradas pelo modelo de raciocínio Claude 3.7 Sonnet nos experimentos do grupo de enigmas.

Para cada solução intermediária identificada no traço, a equipe de pesquisa registrou o seguinte: (1) sua posição relativa na trajetória de raciocínio (normalizada pelo comprimento total do pensamento), (2) sua correção verificada pelo simulador de quebra-cabeça da equipe de pesquisa e (3) a complexidade do problema correspondente.

Isto permite à equipe de pesquisa descrever o progresso e a precisão da formação de soluções ao longo de todo o processo de raciocínio.

lgf2esRhQ8D8S5CgvuCS4e48OS2oxOtufupMh8Dx.png

A equipe de pesquisa descobriu que, para problemas mais simples, os modelos de raciocínio geralmente encontram a solução correta no início do pensamento, mas depois continuam a explorar métodos de solução incorretos.

Em comparação com a solução correta (verde), a distribuição da solução errada (vermelha) é significativamente deslocada para o final da cadeia de pensamento. Esta tendência inverte-se à medida que a complexidade do problema aumenta moderadamente: o modelo explora primeiro a solução errada e, na maioria das vezes, chega à solução correta tardiamente. Desta vez, a distribuição da solução errada (vermelho) é mais inclinada para baixo do que a solução correta (verde).

Por fim, para problemas de maior complexidade, o modelo começa a apresentar fenômenos de colapso, o que significa que o modelo não consegue gerar nenhuma solução correta durante o processo de raciocínio.

A imagem abaixo apresenta uma análise adicional da precisão das soluções dentro dos segmentos (intervalos) da sequência de pensamento no ambiente de Torre de Hanói.

n9VEKux2mllIbnTW6RTGNTE8mxgwiElcJwe7Twum.png

Pode-se observar que, para questões mais simples (valores de N menores), à medida que o pensamento avança, a precisão das soluções tende a diminuir ou flutuar, o que fornece mais evidências do fenômeno da sobrecarga de pensamento.

No entanto, para questões mais complexas, essa tendência pode mudar - a precisão da solução aumenta à medida que o pensamento avança, até atingir um certo limiar. Acima desse limiar de complexidade, no "modo de colapso", a taxa de precisão do modelo é zero.

Bai Ting disse à DeepTech que o modelo precisa de múltiplas inferências em problemas complexos. Na ausência de uma solução correta, é possível que o mecanismo de inferência do modelo tenha adotado uma estratégia de otimização de eficiência através de múltiplas iterações, talvez como uma estratégia de proteção de recursos para evitar iterações excessivas. Portanto, as descobertas deste artigo precisam ser analisadas e verificadas detalhadamente a partir da implementação do modelo.

Bai Ting apontou que também é possível que o processo de raciocínio de grandes modelos seja essencialmente a invocação de padrões de memória. Para modelos como DeepSeek-R1 e o3-mini, seu desempenho é altamente dependente da cobertura do modo de memória nos dados de treinamento, e quando a complexidade do problema excede o limiar de cobertura do modo de memória (como o ambiente de quebra-cabeça controlável projetado pela equipe de pesquisa da Apple), o modelo cai em um estado de "precisão zero".

Embora esse ambiente de quebra-cabeça permita experimentos controlados refinados sobre a complexidade do problema, eles representam apenas uma pequena fração da tarefa de raciocínio e podem não capturar a diversidade de problemas de raciocínio do mundo real ou intensivos em conhecimento.

É importante notar que este estudo se baseia principalmente no acesso a modelos de inferência de ponta fechados através de APIs de caixa-preta, o que limita a equipe de pesquisa na análise de seu estado interno ou componentes de arquitetura.

Além disso, ao usar um simulador de quebra-cabeças determinísticos, a equipe de pesquisa assume que a inferência pode ser perfeitamente verificada passo a passo. No entanto, em domínios com menor grau de estrutura, essa verificação precisa pode ser difícil de alcançar, limitando assim a transferência desse método analítico para cenários de inferência mais amplos.

No geral, a equipe de pesquisa examinou modelos de inferência de ponta em larga escala a partir da perspetiva da complexidade do problema através de um ambiente controlável de resolução de quebra-cabeças. Este resultado revela as limitações dos modelos atuais: apesar de seus complexos mecanismos de autorreflexão, esses modelos são incapazes de desenvolver habilidades de inferência generalizáveis além de um certo limiar de complexidade. A equipa de investigação acredita que este resultado pode abrir caminho ao estudo das capacidades de raciocínio destes modelos.

Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)