TokenBreak Attack Bypasses LL Safeguards With Single Character

HomeNews* Pesquisadores identificaram um novo método chamado TokenBreak que contorna a segurança e moderação do modelo de linguagem grande (LLM) alterando um único caractere nas entradas de texto.

  • O ataque tem como alvo a forma como os LLMs dividem o texto (tokenization), fazendo com que os filtros de segurança deixem passar conteúdo prejudicial apesar de pequenas alterações nas palavras.
  • Esta abordagem funciona fazendo pequenas alterações, como adicionar uma letra, que mantém o significado intacto para humanos e LLMs, mas confunde o sistema de deteção do modelo.
  • O ataque é eficaz contra modelos que utilizam tokenização BPE ou WordPiece, mas não contra aqueles que utilizam tokenizadores Unigram.
  • Os especialistas sugerem a mudança para tokenizadores Unigram e o treinamento de modelos contra essas estratégias de bypass para reduzir a vulnerabilidade. Especialistas em cibersegurança descobriram um novo método, conhecido como TokenBreak, que pode contornar os mecanismos de proteção utilizados por grandes modelos de linguagem para filtrar e moderar conteúdo inseguro. A abordagem funciona fazendo uma pequena alteração—como adicionar um único caractere—em certas palavras em um texto, o que faz com que os filtros de segurança do modelo falhem.
  • Anúncio - De acordo com uma pesquisa da HiddenLayer, o TokenBreak manipula o processo de tokenização, um passo fundamental onde os LLMs dividem o texto em partes menores chamadas tokens para processamento. Ao alterar uma palavra como "instruções" para "finstruções" ou "idiota" para "hidiota", o texto continua a ser compreensível tanto para humanos como para a IA, mas os verificações de segurança do sistema falham em reconhecer o conteúdo prejudicial.

A equipe de pesquisa explicou em seu relatório que, “o ataque TokenBreak tem como alvo a estratégia de tokenização do modelo de classificação de texto para induzir falsos negativos, deixando os alvos finais vulneráveis a ataques que o modelo de proteção implementado foi colocado em prática para prevenir.” A tokenização é essencial em modelos de linguagem porque transforma o texto em unidades que podem ser mapeadas e compreendidas por algoritmos. O texto manipulado pode passar pelos filtros de LLM, acionando a mesma resposta como se a entrada não tivesse sido alterada.

A HiddenLayer descobriu que o TokenBreak funciona em modelos que utilizam BPE (Byte Pair Encoding) ou tokenização WordPiece, mas não afeta sistemas baseados em Unigram. Os pesquisadores afirmaram: "Conhecer a família do modelo de proteção subjacente e sua estratégia de tokenização é fundamental para entender sua suscetibilidade a este ataque." Eles recomendam o uso de tokenizadores Unigram, ensinar modelos de filtro a reconhecer truques de tokenização e revisar logs em busca de sinais de manipulação.

A descoberta segue-se a pesquisas anteriores da HiddenLayer que detalham como as ferramentas do Protocolo de Contexto de Modelo (MCP) podem ser usadas para vazar informações sensíveis ao inserir parâmetros específicos dentro da função de uma ferramenta.

Em um desenvolvimento relacionado, a equipe de pesquisa em IA da Straiker mostrou que os "Ataques de Anuário"—que usam backronyms para codificar conteúdo ruim—podem enganar chatbots de empresas como Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI e OpenAI para produzir respostas indesejáveis. Pesquisadores de segurança explicaram que tais truques passam pelos filtros porque se assemelham a mensagens normais e exploram como os modelos valorizam o contexto e a conclusão de padrões, em vez da análise de intenções.

Artigos Anteriores:

  • Coins.ph PHPC Stablecoin sai do Sandbox do BSP, mira no crescimento das remessas
  • Chainlink, J.P. Morgan e Ondo alcançam liquidação DvP entre cadeias
  • Hacker da Bitrue Move $30M em Cripto para Tornado Cash Após Exploração
  • Hong Kong, HKU desenvolvem rastreador de criptomoedas para combater a lavagem de dinheiro
  • Stripe Adquire Privy para Expandir Serviços de Carteira Cripto e Onboarding
  • Publicidade -
Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)