HomeNews* Los investigadores han identificado un nuevo método llamado TokenBreak que elude la seguridad y moderación del modelo de lenguaje grande (LLM) al alterar un solo carácter en las entradas de texto.
El ataque se dirige a la forma en que los LLM descomponen el texto (tokenización), lo que provoca que los filtros de seguridad pasen por alto contenido dañino a pesar de los cambios menores en las palabras.
Este enfoque funciona realizando pequeños cambios, como agregar una letra, lo que mantiene el significado intacto para los humanos y los LLM, pero confunde el sistema de detección del modelo.
El ataque es efectivo contra modelos que utilizan tokenización BPE o WordPiece, pero no contra aquellos que utilizan tokenizadores Unigram.
Los expertos sugieren cambiar a tokenizadores Unigram y entrenar modelos contra estas estrategias de bypass para reducir la vulnerabilidad.
Los expertos en ciberseguridad han descubierto un nuevo método, conocido como TokenBreak, que puede eludir las barreras utilizadas por los modelos de lenguaje grandes para filtrar y moderar contenido inseguro. El enfoque funciona haciendo un pequeño cambio—como agregar un solo carácter— a ciertas palabras en un texto, lo que provoca que los filtros de seguridad del modelo fallen.
Publicidad - Según investigaciones de HiddenLayer, TokenBreak manipula el proceso de tokenización, un paso fundamental donde los LLM dividen el texto en partes más pequeñas llamadas tokens para su procesamiento. Al cambiar una palabra como "instrucciones" a "finstrucciones" o "idiota" a "hidiota", el texto sigue siendo comprensible tanto para los humanos como para la IA, pero las verificaciones de seguridad del sistema no logran reconocer el contenido dañino.
El equipo de investigación explicó en su informe que, “el ataque TokenBreak tiene como objetivo la estrategia de tokenización del modelo de clasificación de texto para inducir falsos negativos, dejando a los objetivos finales vulnerables a ataques que el modelo de protección implementado se puso en su lugar para prevenir.” La tokenización es esencial en los modelos de lenguaje porque convierte el texto en unidades que pueden ser mapeadas y comprendidas por algoritmos. El texto manipulado puede pasar a través de filtros de LLM, desencadenando la misma respuesta como si la entrada no hubiera sido alterada.
HiddenLayer descubrió que TokenBreak funciona en modelos que utilizan BPE (Byte Pair Encoding) o tokenización de WordPiece, pero no afecta a los sistemas basados en Unigram. Los investigadores afirmaron: "Conocer la familia del modelo de protección subyacente y su estrategia de tokenización es fundamental para comprender su susceptibilidad a este ataque". * Recomiendan usar tokenizadores de Unigram, enseñar modelos de filtro para reconocer trucos de tokenización y revisar los registros en busca de signos de manipulación.
El descubrimiento sigue a investigaciones anteriores de HiddenLayer que detallan cómo las herramientas del Protocolo de Contexto del Modelo (MCP) pueden ser utilizadas para filtrar información sensible al insertar parámetros específicos dentro de la función de una herramienta.
En un desarrollo relacionado, el equipo de investigación de Straiker AI mostró que los “Ataques de Anuario”—que utilizan acrónimos inversos para codificar contenido negativo—pueden engañar a chatbots de empresas como Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI y OpenAI para que produzcan respuestas no deseadas. Investigadores de seguridad explicaron que tales trucos pasan por los filtros porque se asemejan a mensajes normales y explotan cómo los modelos valoran el contexto y la finalización de patrones, en lugar del análisis de intenciones.
Artículos Anteriores:
Coins.ph PHPC Stablecoin sale del Sandbox del BSP, busca crecimiento en remesas
Chainlink, J.P. Morgan y Ondo logran la liquidación DvP entre cadenas
Un hacker de Bitrue mueve $30M en criptomonedas a Tornado Cash tras el exploit
Hong Kong, HKU desarrollan un rastreador de criptomonedas para combatir el lavado de dinero
Stripe adquiere Privy para expandir los servicios de billetera cripto y de incorporación
Anuncio -
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
El ataque TokenBreak elude las salvaguardias de LL con un solo carácter
HomeNews* Los investigadores han identificado un nuevo método llamado TokenBreak que elude la seguridad y moderación del modelo de lenguaje grande (LLM) al alterar un solo carácter en las entradas de texto.
El equipo de investigación explicó en su informe que, “el ataque TokenBreak tiene como objetivo la estrategia de tokenización del modelo de clasificación de texto para inducir falsos negativos, dejando a los objetivos finales vulnerables a ataques que el modelo de protección implementado se puso en su lugar para prevenir.” La tokenización es esencial en los modelos de lenguaje porque convierte el texto en unidades que pueden ser mapeadas y comprendidas por algoritmos. El texto manipulado puede pasar a través de filtros de LLM, desencadenando la misma respuesta como si la entrada no hubiera sido alterada.
HiddenLayer descubrió que TokenBreak funciona en modelos que utilizan BPE (Byte Pair Encoding) o tokenización de WordPiece, pero no afecta a los sistemas basados en Unigram. Los investigadores afirmaron: "Conocer la familia del modelo de protección subyacente y su estrategia de tokenización es fundamental para comprender su susceptibilidad a este ataque". * Recomiendan usar tokenizadores de Unigram, enseñar modelos de filtro para reconocer trucos de tokenización y revisar los registros en busca de signos de manipulación.
El descubrimiento sigue a investigaciones anteriores de HiddenLayer que detallan cómo las herramientas del Protocolo de Contexto del Modelo (MCP) pueden ser utilizadas para filtrar información sensible al insertar parámetros específicos dentro de la función de una herramienta.
En un desarrollo relacionado, el equipo de investigación de Straiker AI mostró que los “Ataques de Anuario”—que utilizan acrónimos inversos para codificar contenido negativo—pueden engañar a chatbots de empresas como Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI y OpenAI para que produzcan respuestas no deseadas. Investigadores de seguridad explicaron que tales trucos pasan por los filtros porque se asemejan a mensajes normales y explotan cómo los modelos valoran el contexto y la finalización de patrones, en lugar del análisis de intenciones.
Artículos Anteriores: