これに関連して、Straiker AI Researchチームは、バックロニムを使用して悪質なコンテンツをエンコードする「Yearbook Attacks」が、Anthropic、DeepSeek、Google、Meta、Microsoft、Mistral AI、OpenAIなどの企業のチャットボットを騙して望ましくない応答を生成することができることを示しました。セキュリティ研究者は、このようなトリックは通常のメッセージに似ており、モデルがインテント分析ではなくコンテキストとパターン補完をどのように評価するかを悪用するため、フィルターを通過すると説明しました。
トークンブレイク攻撃が単一文字でLLMの安全対策を回避
ホームニュース* 研究者たちは、テキスト入力の1文字を変更することで、大規模言語モデル(LLM)の安全性とモデレーションを回避する新しい方法「TokenBreak」を特定しました。
研究チームはレポートで、「TokenBreak攻撃は、テキスト分類モデルのトークン化戦略を標的にして偽陰性を誘発し、実装された保護モデルが防止するために導入された攻撃に対してエンドターゲットを脆弱にする」と説明しています。* トークン化は、テキストをアルゴリズムがマッピングして理解できる単位に変換するため、言語モデルでは不可欠です。操作されたテキストは LLM フィルターを通過でき、入力が変更されていない場合と同じ応答をトリガーします。
HiddenLayer は、TokenBreak が BPE (Byte Pair Encoding) または WordPiece トークン化を使用するモデルで機能するが、Unigram ベースのシステムには影響を与えないことを発見しました。研究者は、「基盤となる保護モデルのファミリーとそのトークン化戦略を知ることは、この攻撃に対する感受性を理解するために重要です」と述べています。* 彼らは、Unigram トークナイザーの使用、トークン化のトリックを認識するためのフィルターモデルへの教育、操作の兆候がないかログを確認することを推奨しています。
この発見は、HiddenLayerによる以前の研究に続くもので、Model Context Protocol (MCP)ツールが、ツールの機能内に特定のパラメータを挿入することによって機密情報を漏洩させる方法を詳細に説明しています。
これに関連して、Straiker AI Researchチームは、バックロニムを使用して悪質なコンテンツをエンコードする「Yearbook Attacks」が、Anthropic、DeepSeek、Google、Meta、Microsoft、Mistral AI、OpenAIなどの企業のチャットボットを騙して望ましくない応答を生成することができることを示しました。セキュリティ研究者は、このようなトリックは通常のメッセージに似ており、モデルがインテント分析ではなくコンテキストとパターン補完をどのように評価するかを悪用するため、フィルターを通過すると説明しました。
####前の記事:
-広告-