トークンブレイク攻撃が単一文字でLLMの安全対策を回避

2025-06-12 16:37:50

ホームニュース* 研究者たちは、テキスト入力の1文字を変更することで、大規模言語モデル(LLM)の安全性とモデレーションを回避する新しい方法「TokenBreak」を特定しました。

攻撃は、LLMがテキスト(トークン化)を分解する方法を対象としており、単語のわずかな変更にもかかわらず、安全フィルターが有害なコンテンツを見逃す原因となります。
このアプローチは、意味を維持しつつ、人間やLLMには理解できるが、モデルの検出システムを混乱させるような、小さな変更（例えば、文字を追加すること）を行うことによって機能します。
この攻撃はBPEまたはWordPieceトークン化を使用しているモデルに対して効果的ですが、Unigramトークナイザーを使用しているモデルには効果がありません。
専門家は、脆弱性を軽減するために、Unigramトークナイザーに切り替え、これらのバイパス戦略に対してモデルを訓練することを提案しています。サイバーセキュリティの専門家たちは、TokenBreakとして知られる新しい手法を発見しました。この手法は、大規模言語モデルが安全でないコンテンツをスクリーニングおよびモデレートするために使用するガードレールをバイパスすることができます。このアプローチは、テキスト内の特定の単語に対して単一の文字を追加するなどの小さな変更を加えることで機能し、その結果、モデルの安全フィルターが失敗します。

広告 - HiddenLayer の研究によると、TokenBreak はトークン化プロセスを操作します。これは、LLM がテキストを処理のためにトークンと呼ばれる小さな部分に分割する核心的なステップです。「instructions」を「finstructions」に、「idiot」を「hidiot」に変更することで、テキストは人間とAIの両方にとって理解可能なままですが、システムの安全チェックは有害なコンテンツを認識できなくなります。

研究チームはレポートで、「TokenBreak攻撃は、テキスト分類モデルのトークン化戦略を標的にして偽陰性を誘発し、実装された保護モデルが防止するために導入された攻撃に対してエンドターゲットを脆弱にする」と説明しています。* トークン化は、テキストをアルゴリズムがマッピングして理解できる単位に変換するため、言語モデルでは不可欠です。操作されたテキストは LLM フィルターを通過でき、入力が変更されていない場合と同じ応答をトリガーします。

HiddenLayer は、TokenBreak が BPE (Byte Pair Encoding) または WordPiece トークン化を使用するモデルで機能するが、Unigram ベースのシステムには影響を与えないことを発見しました。研究者は、「基盤となる保護モデルのファミリーとそのトークン化戦略を知ることは、この攻撃に対する感受性を理解するために重要です」と述べています。* 彼らは、Unigram トークナイザーの使用、トークン化のトリックを認識するためのフィルターモデルへの教育、操作の兆候がないかログを確認することを推奨しています。

この発見は、HiddenLayerによる以前の研究に続くもので、Model Context Protocol (MCP)ツールが、ツールの機能内に特定のパラメータを挿入することによって機密情報を漏洩させる方法を詳細に説明しています。

これに関連して、Straiker AI Researchチームは、バックロニムを使用して悪質なコンテンツをエンコードする「Yearbook Attacks」が、Anthropic、DeepSeek、Google、Meta、Microsoft、Mistral AI、OpenAIなどの企業のチャットボットを騙して望ましくない応答を生成することができることを示しました。セキュリティ研究者は、このようなトリックは通常のメッセージに似ており、モデルがインテント分析ではなくコンテキストとパターン補完をどのように評価するかを悪用するため、フィルターを通過すると説明しました。

####前の記事:

Coins.ph PHPCステーブルコインがBSPサンドボックスを終了、送金成長を目指す
Chainlink、J.P. Morgan、OndoがクロスチェーンDvP決済を実現
Bitrueハッカーがエクスプロイト後に3,000万ドルの暗号をトルネードキャッシュに移動
香港、HKUがマネーロンダリング対策のための暗号追跡ツールを開発
ストライプがプライビーを買収し、暗号ウォレットおよびオンボーディングサービスを拡大

-広告-

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
1/3
1CandyDrop Airdrop Event 6.0
91771 人気度
2White House Crypto Report
79876 人気度
3Join Alpha RION Airdrop to Earn $40
64312 人気度
4Fed Holds Rates Decision
10379 人気度
5July Spark Program TOP 10 Creators Announced
3458 人気度

ピン

サイトマップ