代币突破攻击通过单个字符绕过LLM安全保护

2025-06-12 16:37:50

首页新闻* 研究人员已识别出一种名为TokenBreak的新方法，该方法通过改变文本输入中的单个字符，绕过大型语言模型(LLM)的安全性和管理。

该攻击针对LLM分解文本的方式(代币化)，导致安全过滤器在单词略微变化的情况下漏掉有害内容。
这种方法通过进行小的改变，比如添加一个字母，保持了人类和LLM的理解，但会让模型的检测系统感到困惑。
该攻击对使用BPE或WordPiece分词的模型有效，但对使用Unigram分词器的模型无效。
专家建议切换到Unigram代币化器，并针对这些绕过策略训练模型，以降低脆弱性。网络安全专家发现了一种新的方法，称为TokenBreak，可以绕过大型语言模型用于筛选和调节不安全内容的防护措施。该方法通过对文本中的某些单词进行小的改动——例如添加一个字符——从而导致模型的安全过滤器失效。

广告 - 根据HiddenLayer的研究，TokenBreak操纵代币化过程，这是LLM将文本拆分成称为代币的小部分以进行处理的核心步骤。通过将一个单词如"instructions"更改为"finstructions"或"idiot"更改为"hidiot"，文本对人类和AI仍然可理解，但系统的安全检查未能识别出有害内容。

研究团队在他们的报告中解释说，“TokenBreak攻击针对文本分类模型的代币化策略，以诱导假阴性，使最终目标容易受到保护模型旨在防止的攻击。” 代币化在语言模型中至关重要，因为它将文本转化为可以被算法映射和理解的单元。被操纵的文本可以通过LLM过滤器，触发与输入未被更改时相同的响应。

HiddenLayer发现TokenBreak适用于使用BPE (字节对编码)或WordPiece分词的模型，但不影响基于Unigram的系统。研究人员表示，*“了解底层保护模型的家族及其分词策略对于理解您对该攻击的敏感性至关重要。”*他们建议使用Unigram分词器，教导过滤模型识别分词技巧，并查看日志以寻找操控迹象。

这一发现是在HiddenLayer之前的研究基础上得出的，该研究详细说明了如何使用Model Context Protocol (MCP)工具，通过在工具的函数中插入特定参数来泄露敏感信息。

在一项相关的发展中，Straiker AI 研究团队表明，“年鉴攻击”——使用反义词对不良内容进行编码——可以欺骗来自 Anthropic、DeepSeek、Google、Meta、Microsoft、Mistral AI 和 OpenAI 等公司的聊天机器人产生不良响应。安全研究人员解释说，这些技巧会通过过滤器，因为它们类似于普通消息，并利用模型如何重视上下文和模式完成，而不是意图分析。

以前的文章:

Coins.ph PHPC 稳定币退出 BSP 沙盒，瞄准汇款增长
Chainlink, 摩根大通与Ondo实现跨链DvP结算
Bitrue黑客在利用漏洞后将3000万美元的加密货币转移至Tornado Cash
香港，HKU 开发加密货币追踪器以打击洗钱
Stripe收购Privy以扩展加密钱包和入驻服务

广告 -

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
分享

0/400

暂无评论