HomeNews* Des chercheurs ont identifié une nouvelle méthode appelée TokenBreak qui contourne la sécurité et la modération du modèle de langage (LLM) en modifiant un seul caractère dans les entrées de texte.
L'attaque vise la manière dont les LLM décomposent le texte (tokenization), ce qui fait que les filtres de sécurité manquent le contenu nuisible malgré de légers changements de mots.
Cette approche fonctionne en apportant de petits changements, comme l'ajout d'une lettre, ce qui maintient le sens intact pour les humains et les LLM, mais confond le système de détection du modèle.
L’attaque est efficace contre les modèles utilisant la tokenisation BPE ou WordPiece, mais pas ceux utilisant des tokenizers Unigram.
Les experts suggèrent de passer aux tokenizers Unigram et de former des modèles contre ces stratégies de contournement pour réduire la vulnérabilité.
Des experts en cybersécurité ont découvert une nouvelle méthode, connue sous le nom de TokenBreak, qui peut contourner les garde-fous utilisés par les grands modèles de langage pour filtrer et modérer le contenu dangereux. L'approche fonctionne en apportant un petit changement—comme l'ajout d'un seul caractère—à certains mots dans un texte, ce qui entraîne un échec des filtres de sécurité du modèle.
Publicité - Selon des recherches de HiddenLayer, TokenBreak manipule le processus de tokenisation, une étape clé où les LLM divisent le texte en parties plus petites appelées jetons pour le traitement. En changeant un mot comme "instructions" en "finstructions" ou "idiot" en "hidiot", le texte reste compréhensible pour les humains et l'IA, mais les vérifications de sécurité du système échouent à reconnaître le contenu nuisible.
L'équipe de recherche a expliqué dans son rapport que, “l'attaque TokenBreak cible la stratégie de tokenisation d'un modèle de classification de texte pour induire de faux négatifs, laissant les cibles finales vulnérables à des attaques que le modèle de protection mis en place était destiné à prévenir.” La tokenisation est essentielle dans les modèles de langue car elle transforme le texte en unités qui peuvent être mappées et comprises par les algorithmes. Le texte manipulé peut passer à travers les filtres LLM, déclenchant la même réponse que si l'entrée n'avait pas été altérée.
HiddenLayer a constaté que TokenBreak fonctionne sur les modèles utilisant la tokenisation BPE (Byte Pair Encoding) ou WordPiece, mais n’affecte pas les systèmes basés sur Unigram. Les chercheurs ont déclaré : « Connaître la famille du modèle de protection sous-jacent et sa stratégie de tokenisation est essentiel pour comprendre votre susceptibilité à cette attaque. » * Ils recommandent d’utiliser les tokenizers Unigram, d’apprendre aux modèles de filtres à reconnaître les astuces de tokenisation et d’examiner les journaux pour détecter des signes de manipulation.
La découverte fait suite à des recherches précédentes de HiddenLayer détaillant comment les outils du Protocole de Contexte de Modèle (MCP) peuvent être utilisés pour divulguer des informations sensibles en insérant des paramètres spécifiques dans la fonction d'un outil.
Dans un développement connexe, l'équipe de recherche en intelligence artificielle Straiker a montré que les "Attaques de livre de classe" — qui utilisent des backronymes pour encoder du contenu indésirable — peuvent tromper des chatbots d'entreprises telles que Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI et OpenAI en produisant des réponses indésirables. Les chercheurs en sécurité ont expliqué que de telles astuces passent à travers les filtres car elles ressemblent à des messages normaux et exploitent la manière dont les modèles évaluent le contexte et l'achèvement des motifs, plutôt que l'analyse des intentions.
Articles Précédents:
La stablecoin PHPC de Coins.ph sort du bac à sable de la BSP, vise une croissance des envois de fonds
Chainlink, J.P. Morgan & Ondo réalisent un règlement DvP inter-chaînes
Un hacker de Bitrue déplace 30 millions de dollars en crypto vers Tornado Cash après une exploitation
Hong Kong, HKU développent un tracker crypto pour lutter contre le blanchiment d'argent
Stripe acquiert Privy pour étendre ses services de portefeuille crypto et d'intégration
Publicité -
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
L'attaque TokenBreak contourne les protections LLM avec un seul caractère
HomeNews* Des chercheurs ont identifié une nouvelle méthode appelée TokenBreak qui contourne la sécurité et la modération du modèle de langage (LLM) en modifiant un seul caractère dans les entrées de texte.
L'équipe de recherche a expliqué dans son rapport que, “l'attaque TokenBreak cible la stratégie de tokenisation d'un modèle de classification de texte pour induire de faux négatifs, laissant les cibles finales vulnérables à des attaques que le modèle de protection mis en place était destiné à prévenir.” La tokenisation est essentielle dans les modèles de langue car elle transforme le texte en unités qui peuvent être mappées et comprises par les algorithmes. Le texte manipulé peut passer à travers les filtres LLM, déclenchant la même réponse que si l'entrée n'avait pas été altérée.
HiddenLayer a constaté que TokenBreak fonctionne sur les modèles utilisant la tokenisation BPE (Byte Pair Encoding) ou WordPiece, mais n’affecte pas les systèmes basés sur Unigram. Les chercheurs ont déclaré : « Connaître la famille du modèle de protection sous-jacent et sa stratégie de tokenisation est essentiel pour comprendre votre susceptibilité à cette attaque. » * Ils recommandent d’utiliser les tokenizers Unigram, d’apprendre aux modèles de filtres à reconnaître les astuces de tokenisation et d’examiner les journaux pour détecter des signes de manipulation.
La découverte fait suite à des recherches précédentes de HiddenLayer détaillant comment les outils du Protocole de Contexte de Modèle (MCP) peuvent être utilisés pour divulguer des informations sensibles en insérant des paramètres spécifiques dans la fonction d'un outil.
Dans un développement connexe, l'équipe de recherche en intelligence artificielle Straiker a montré que les "Attaques de livre de classe" — qui utilisent des backronymes pour encoder du contenu indésirable — peuvent tromper des chatbots d'entreprises telles que Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI et OpenAI en produisant des réponses indésirables. Les chercheurs en sécurité ont expliqué que de telles astuces passent à travers les filtres car elles ressemblent à des messages normaux et exploitent la manière dont les modèles évaluent le contexte et l'achèvement des motifs, plutôt que l'analyse des intentions.
Articles Précédents: