Атака TokenBreak обходит защитные механизмы LLM с помощью одного символа

HomeNews* Исследователи выявили новый метод под названием TokenBreak, который обходит безопасность и модерацию больших языковых моделей (LLM), изменяя один символ в текстовых вводах.

  • Атака нацелена на то, как LLM разбивают текст (токенизация), из-за чего фильтры безопасности пропускают вредоносный контент, несмотря на незначительные изменения в словах.
  • Этот подход работает, внося небольшие изменения, такие как добавление буквы, что сохраняет смысл для людей и LLM, но сбивает с толку систему обнаружения модели.
  • Атака эффективна против моделей, использующих токенизацию BPE или WordPiece, но не против тех, которые используют униграмные токенизаторы.
  • Эксперты предлагают перейти на токенизаторы Unigram и обучать модели против этих стратегий обхода для снижения уязвимости. Эксперты в области кибербезопасности обнаружили новый метод, известный как TokenBreak, который может обойти защитные механизмы, используемые большими языковыми моделями для фильтрации и модерации небезопасного контента. Этот подход основан на небольшом изменении — например, добавлении одного символа — в определенные слова в тексте, что приводит к сбою фильтров безопасности модели.
  • Реклама - Согласно исследованию HiddenLayer, TokenBreak манипулирует процессом токенизации, ключевым шагом, в котором LLM разбивает текст на более мелкие части, называемые токенами, для обработки. Изменяя слово "instructions" на "finstructions" или "idiot" на "hidiot", текст остается понятным как для людей, так и для ИИ, но системы безопасности не распознают вредоносный контент.

Исследовательская группа объяснила в своем отчете, что, "атака TokenBreak нацелена на стратегию токенизации модели классификации текста, чтобы вызвать ложные негативные результаты, оставляя конечные цели уязвимыми для атак, для предотвращения которых была внедрена защитная модель." Токенизация имеет решающее значение в языковых моделях, поскольку она превращает текст в единицы, которые могут быть сопоставлены и поняты алгоритмами. Манипулированный текст может проходить через фильтры LLM, вызывая такой же ответ, как если бы ввод не был изменен.

HiddenLayer обнаружил, что TokenBreak работает с моделями, использующими BPE (Byte Pair Encoding) или токенизацию WordPiece, но не влияет на системы на основе Unigram. Исследователи заявили: "Знание семейства основной модели защиты и ее стратегии токенизации имеет решающее значение для понимания вашей уязвимости к этой атаке." Они рекомендуют использовать токенизаторы Unigram, обучать фильтрующие модели распознавать уловки токенизации и проверять журналы на наличие признаков манипуляции.

Это открытие следует за предыдущими исследованиями HiddenLayer, в которых подробно описывается, как инструменты Протокола Контекста Модели (MCP) могут быть использованы для утечки конфиденциальной информации, путем вставки определенных параметров в функцию инструмента.

В связанном развитии команда исследователей Straiker AI показала, что «Атаки на выпускные альбомы» — которые используют бэкронемы для кодирования плохого контента — могут обмануть чат-ботов таких компаний, как Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI и OpenAI, заставляя их выдавать нежелательные ответы. Исследователи в области безопасности объяснили, что такие уловки проходят через фильтры, потому что они напоминают обычные сообщения и используют то, как модели оценивают контекст и завершение шаблонов, а не анализ намерений.

Предыдущие статьи:

  • Coins.ph PHPC Стейблкоин выходит из песочницы BSP, нацелен на рост денежных переводов
  • Chainlink, J.P. Morgan и Ondo достигли кросс-цепного DvP расчетов
  • Хакер Bitrue переместил $30M в криптовалюте в Tornado Cash после атаки
  • Гонконг, HKU разрабатывают крипто-трекер для борьбы с отмыванием денег
  • Stripe приобретает Privy для расширения услуг крипто-кошелька и онбординга
  • Реклама -
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить