用安全的模型去守护不安全的模型,用智慧的系统去抵御来自智慧的攻击。本文源自 拉风的极客 所着文章,由 TechFlow 深潮 转载。 (前情提要:巴基斯坦宣布将2000兆瓦电力用于「比特币挖矿和AI中心」总理任命区块链与加密货币特别助理 ) (背景补充:鸿海内部实验:AI 能取代80%工作,董事长刘扬伟曝未来工厂三位一体蓝图 ) 极客在创业,小白在买课,画师在失业,但一个尴尬的现实却是:AI 落地热火朝天,但剧情走的不是降临路线,而是掷骰子。 而且,在行业初期,这个骰子最先落地的面,往往不是黄色就是灰色。 原因也很简单,暴利催生动力,更何况发展初期的行业,总是漏洞百出。看这么一组资料就清楚了: 当前,超过 43% 的 MCP 服务节点存在未经验证的 Shell 呼叫路径,超过 83% 的部署存在 MCP(Model Context Protocol)配置漏洞;88% 的 AI 元件部署根本没启用任何形式的防护机制;15 万个 Ollama 等轻量 AI 部署框架当前在全球公网暴露,超过 10 亿美元的算力被劫持用于挖矿…… 更讽刺的是,攻击最聪明的大模型,只需要最低阶的手法 —— 只要一套预设开放的埠,一个暴露的 YAML 配置档案,或者一个未经验证的 Shell 呼叫路径,甚至,只要提示词输入的够精准,大模型自己就能帮灰产找到攻击的方向。企业资料隐私的大门,就这么在 AI 时代被任意进出。 但问题并非无解:AI 不止有生成与攻击两面。如何把 AI 用于防护,也越来越多的成为这个时代主旋律;与此同时,在云上,为 AI 制定规则,也成为顶级云厂商的重点摸索方向,而阿里云安全就是其中最典型的代表。 刚刚落幕的阿里云飞天释出时刻上,阿里云正式官宣了其云安全的两条路径:Security for AI 和 AI for Security,并发布了「AI 云盾(Cloud Shield for AI)系列产品」为客户提供「模型应用端到端的安全解决方案」,正是当下跌业探索的一个最佳例证。 01 AI 掷骰子,为什么总是灰色与黄色先朝上? 在人类的技术史上,AI 并不是第一个「先被黄暴试水」的新物种,灰黄先爆发,也是技术普及的规律而非意外。 1839 年银板照相术一出,第一波使用者是色情行业; 网际网路初期,电商没起步,成人网站已经开始琢磨线上支付; 今天的大模型羊毛党,某种程度上,也是在复刻「域名时代」的暴富神话。 时代的红利,总是先被灰色与黄色先摸走。因为他们不讲合规、不等监管、效率自然超高。 也因此,每一个技术的爆发期,都先是一锅「浑汤」,AI 自然不例外。 2023 年 12 月,一位骇客只用了一句提示词 ——「$1 报价」,就诱导一家 4S 店的客服机器人差点以 1 美元卖出一台雪佛兰。这就是 AI 时代最常见的「提示词攻击」(Prompt Injection):不需要许可权验证,不留日志痕迹,只靠「说得巧」,就能换掉整个逻辑链。 再深一步,是「越狱攻击」(Jailbreak)。攻击者用反问句、角色扮演、绕路提示等方式,成功让模型说出原本不该说的东西:色情内容、毒品制造、伪警告资讯…… 在香港,有人甚至靠伪造高管语音,从企业帐户里卷走了 2 亿港元。 除了骗局,AI 还有「非故意输出」的风险:2023 年,某教育巨头的大模型系统在生成教案时误输出带有极端内容的「毒教材」,仅 3 天,家长维权、舆情爆发,公司股价蒸发 120 亿元。 AI 不懂法律,但它有能力,而能力一旦脱离监督,就具备伤害性。 但另一个角度来看,AI 的技术是新的,但灰产与黄色的最终流向与手段却是不变的,而要解决它,靠的还是安全。 02 Security for AI 先说一个被 AI 行业集体回避的冷知识: 大模型的本质,不是「智慧」,也不是「理解」,而是概率控制下的语义生成。也是因此,一旦超出训练语境,就可能输出意料之外的结果。 这种超纲可能是,你想要它写新闻,它给你写诗;也可能是你想让它推荐商品,它突然告诉你今天东京的温度是零上 25 摄氏度。更有甚者,你告诉它在游戏里,如果拿不到某某软体的正版序列号,它就会被枪毙,大模型就真的可以想尽办法帮使用者 0 成本找到一个正版软体序列号。 而要想保证输出可控,企业就得又懂模型,又懂安全。根据 IDC 最新《中国安全大模型能力测评报告》,阿里在与国内所有具备安全大模型能力的顶级厂商 PK 中,在 7 项指标中有 4 项为第一,其余 3 项也全部高于行业均值。 做法上,阿里云安全给出的答案也很直接:让安全跑在 AI 速度前面,构建一套自下而上、横跨三层的全栈防护框架 —— 从基础设施安全,到大模型输入输出控制,再到 AI 应用服务保护。 在这三层里,最有存在感的,是中间层专门针对大模型风险的「AI 安全护栏」(AI Guardrail)。 通常来说,针对大模型安全的风险主要有:内容违规、敏感资料泄露、提示词注入攻击、模型幻觉、越狱攻击这几类。 然而,传统的安全方案多为通用型架构,是为 Web 设计的,而不是为「会说话的程式」准备的,自然也无法对大模型应用特有风险产生精准识别与响应能力。对生成内容安全、上下文攻击防御、模型输出可信性等新兴问题更是难以覆盖。更重要的是,传统方案,缺乏细粒度的可控手段与视觉化追溯机制,这就导致企业在 AI 治理中产生了巨大盲区,不知道问题出在哪里,自然无法解决问题。 AI Guardrail 真正的厉害之处,不只是「它能拦住」,而是无论你是做预训练大模型、AI 服务还是 AI Agent 各种不同的业务形态,它都知道你在说什么、大模型在生成什么,从而提供精准的风险检测与主动防御能力,做到合规、安全、稳定。 具体来说,AI Guardrail 具体负责三类场景的防护: 合规底线:对生成式 AI 输入输出的文字内容进行多维度合规审查,覆盖涉政敏感、色情低俗、偏见歧视、不良价值观等风险类别,深度检测 AI 互动过程中可能泄露的隐私资料与敏感资讯,支援涉及个人隐私、企...
303045 帖子
268647 帖子
176569 帖子
82562 帖子
69428 帖子
68315 帖子
63061 帖子
61466 帖子
52497 帖子
50567 帖子
为什么 AI 时代,总是黄赌资金最先爆发?
用安全的模型去守护不安全的模型,用智慧的系统去抵御来自智慧的攻击。本文源自 拉风的极客 所着文章,由 TechFlow 深潮 转载。 (前情提要:巴基斯坦宣布将2000兆瓦电力用于「比特币挖矿和AI中心」总理任命区块链与加密货币特别助理 ) (背景补充:鸿海内部实验:AI 能取代80%工作,董事长刘扬伟曝未来工厂三位一体蓝图 ) 极客在创业,小白在买课,画师在失业,但一个尴尬的现实却是:AI 落地热火朝天,但剧情走的不是降临路线,而是掷骰子。 而且,在行业初期,这个骰子最先落地的面,往往不是黄色就是灰色。 原因也很简单,暴利催生动力,更何况发展初期的行业,总是漏洞百出。看这么一组资料就清楚了: 当前,超过 43% 的 MCP 服务节点存在未经验证的 Shell 呼叫路径,超过 83% 的部署存在 MCP(Model Context Protocol)配置漏洞;88% 的 AI 元件部署根本没启用任何形式的防护机制;15 万个 Ollama 等轻量 AI 部署框架当前在全球公网暴露,超过 10 亿美元的算力被劫持用于挖矿…… 更讽刺的是,攻击最聪明的大模型,只需要最低阶的手法 —— 只要一套预设开放的埠,一个暴露的 YAML 配置档案,或者一个未经验证的 Shell 呼叫路径,甚至,只要提示词输入的够精准,大模型自己就能帮灰产找到攻击的方向。企业资料隐私的大门,就这么在 AI 时代被任意进出。 但问题并非无解:AI 不止有生成与攻击两面。如何把 AI 用于防护,也越来越多的成为这个时代主旋律;与此同时,在云上,为 AI 制定规则,也成为顶级云厂商的重点摸索方向,而阿里云安全就是其中最典型的代表。 刚刚落幕的阿里云飞天释出时刻上,阿里云正式官宣了其云安全的两条路径:Security for AI 和 AI for Security,并发布了「AI 云盾(Cloud Shield for AI)系列产品」为客户提供「模型应用端到端的安全解决方案」,正是当下跌业探索的一个最佳例证。 01 AI 掷骰子,为什么总是灰色与黄色先朝上? 在人类的技术史上,AI 并不是第一个「先被黄暴试水」的新物种,灰黄先爆发,也是技术普及的规律而非意外。 1839 年银板照相术一出,第一波使用者是色情行业; 网际网路初期,电商没起步,成人网站已经开始琢磨线上支付; 今天的大模型羊毛党,某种程度上,也是在复刻「域名时代」的暴富神话。 时代的红利,总是先被灰色与黄色先摸走。因为他们不讲合规、不等监管、效率自然超高。 也因此,每一个技术的爆发期,都先是一锅「浑汤」,AI 自然不例外。 2023 年 12 月,一位骇客只用了一句提示词 ——「$1 报价」,就诱导一家 4S 店的客服机器人差点以 1 美元卖出一台雪佛兰。这就是 AI 时代最常见的「提示词攻击」(Prompt Injection):不需要许可权验证,不留日志痕迹,只靠「说得巧」,就能换掉整个逻辑链。 再深一步,是「越狱攻击」(Jailbreak)。攻击者用反问句、角色扮演、绕路提示等方式,成功让模型说出原本不该说的东西:色情内容、毒品制造、伪警告资讯…… 在香港,有人甚至靠伪造高管语音,从企业帐户里卷走了 2 亿港元。 除了骗局,AI 还有「非故意输出」的风险:2023 年,某教育巨头的大模型系统在生成教案时误输出带有极端内容的「毒教材」,仅 3 天,家长维权、舆情爆发,公司股价蒸发 120 亿元。 AI 不懂法律,但它有能力,而能力一旦脱离监督,就具备伤害性。 但另一个角度来看,AI 的技术是新的,但灰产与黄色的最终流向与手段却是不变的,而要解决它,靠的还是安全。 02 Security for AI 先说一个被 AI 行业集体回避的冷知识: 大模型的本质,不是「智慧」,也不是「理解」,而是概率控制下的语义生成。也是因此,一旦超出训练语境,就可能输出意料之外的结果。 这种超纲可能是,你想要它写新闻,它给你写诗;也可能是你想让它推荐商品,它突然告诉你今天东京的温度是零上 25 摄氏度。更有甚者,你告诉它在游戏里,如果拿不到某某软体的正版序列号,它就会被枪毙,大模型就真的可以想尽办法帮使用者 0 成本找到一个正版软体序列号。 而要想保证输出可控,企业就得又懂模型,又懂安全。根据 IDC 最新《中国安全大模型能力测评报告》,阿里在与国内所有具备安全大模型能力的顶级厂商 PK 中,在 7 项指标中有 4 项为第一,其余 3 项也全部高于行业均值。 做法上,阿里云安全给出的答案也很直接:让安全跑在 AI 速度前面,构建一套自下而上、横跨三层的全栈防护框架 —— 从基础设施安全,到大模型输入输出控制,再到 AI 应用服务保护。 在这三层里,最有存在感的,是中间层专门针对大模型风险的「AI 安全护栏」(AI Guardrail)。 通常来说,针对大模型安全的风险主要有:内容违规、敏感资料泄露、提示词注入攻击、模型幻觉、越狱攻击这几类。 然而,传统的安全方案多为通用型架构,是为 Web 设计的,而不是为「会说话的程式」准备的,自然也无法对大模型应用特有风险产生精准识别与响应能力。对生成内容安全、上下文攻击防御、模型输出可信性等新兴问题更是难以覆盖。更重要的是,传统方案,缺乏细粒度的可控手段与视觉化追溯机制,这就导致企业在 AI 治理中产生了巨大盲区,不知道问题出在哪里,自然无法解决问题。 AI Guardrail 真正的厉害之处,不只是「它能拦住」,而是无论你是做预训练大模型、AI 服务还是 AI Agent 各种不同的业务形态,它都知道你在说什么、大模型在生成什么,从而提供精准的风险检测与主动防御能力,做到合规、安全、稳定。 具体来说,AI Guardrail 具体负责三类场景的防护: 合规底线:对生成式 AI 输入输出的文字内容进行多维度合规审查,覆盖涉政敏感、色情低俗、偏见歧视、不良价值观等风险类别,深度检测 AI 互动过程中可能泄露的隐私资料与敏感资讯,支援涉及个人隐私、企...