トークンブレイク攻撃が単一文字でLLMの安全対策を回避

ホームニュース* 研究者たちは、テキスト入力の1文字を変更することで、大規模言語モデル(LLM)の安全性とモデレーションを回避する新しい方法「TokenBreak」を特定しました。

  • 攻撃は、LLMがテキスト(トークン化)を分解する方法を対象としており、単語のわずかな変更にもかかわらず、安全フィルターが有害なコンテンツを見逃す原因となります。
  • このアプローチは、意味を維持しつつ、人間やLLMには理解できるが、モデルの検出システムを混乱させるような、小さな変更(例えば、文字を追加すること)を行うことによって機能します。
  • この攻撃はBPEまたはWordPieceトークン化を使用しているモデルに対して効果的ですが、Unigramトークナイザーを使用しているモデルには効果がありません。
  • 専門家は、脆弱性を軽減するために、Unigramトークナイザーに切り替え、これらのバイパス戦略に対してモデルを訓練することを提案しています。 サイバーセキュリティの専門家たちは、TokenBreakとして知られる新しい手法を発見しました。この手法は、大規模言語モデルが安全でないコンテンツをスクリーニングおよびモデレートするために使用するガードレールをバイパスすることができます。このアプローチは、テキスト内の特定の単語に対して単一の文字を追加するなどの小さな変更を加えることで機能し、その結果、モデルの安全フィルターが失敗します。
  • 広告 - HiddenLayer の研究によると、TokenBreak はトークン化プロセスを操作します。これは、LLM がテキストを処理のためにトークンと呼ばれる小さな部分に分割する核心的なステップです。「instructions」を「finstructions」に、「idiot」を「hidiot」に変更することで、テキストは人間とAIの両方にとって理解可能なままですが、システムの安全チェックは有害なコンテンツを認識できなくなります。

研究チームはレポートで、「TokenBreak攻撃は、テキスト分類モデルのトークン化戦略を標的にして偽陰性を誘発し、実装された保護モデルが防止するために導入された攻撃に対してエンドターゲットを脆弱にする」と説明しています。* トークン化は、テキストをアルゴリズムがマッピングして理解できる単位に変換するため、言語モデルでは不可欠です。操作されたテキストは LLM フィルターを通過でき、入力が変更されていない場合と同じ応答をトリガーします。

HiddenLayer は、TokenBreak が BPE (Byte Pair Encoding) または WordPiece トークン化を使用するモデルで機能するが、Unigram ベースのシステムには影響を与えないことを発見しました。研究者は、「基盤となる保護モデルのファミリーとそのトークン化戦略を知ることは、この攻撃に対する感受性を理解するために重要です」と述べています。* 彼らは、Unigram トークナイザーの使用、トークン化のトリックを認識するためのフィルターモデルへの教育、操作の兆候がないかログを確認することを推奨しています。

この発見は、HiddenLayerによる以前の研究に続くもので、Model Context Protocol (MCP)ツールが、ツールの機能内に特定のパラメータを挿入することによって機密情報を漏洩させる方法を詳細に説明しています。

これに関連して、Straiker AI Researchチームは、バックロニムを使用して悪質なコンテンツをエンコードする「Yearbook Attacks」が、AnthropicDeepSeekGoogleMetaMicrosoftMistral AIOpenAIなどの企業のチャットボットを騙して望ましくない応答を生成することができることを示しました。セキュリティ研究者は、このようなトリックは通常のメッセージに似ており、モデルがインテント分析ではなくコンテキストとパターン補完をどのように評価するかを悪用するため、フィルターを通過すると説明しました。

####前の記事:

  • Coins.ph PHPCステーブルコインがBSPサンドボックスを終了、送金成長を目指す
  • Chainlink、J.P. Morgan、OndoがクロスチェーンDvP決済を実現
  • Bitrueハッカーがエクスプロイト後に3,000万ドルの暗号をトルネードキャッシュに移動
  • 香港、HKUがマネーロンダリング対策のための暗号追跡ツールを開発
  • ストライプがプライビーを買収し、暗号ウォレットおよびオンボーディングサービスを拡大

-広告-

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)