正文

91% 存在漏洞、94% 可被投毒——AI Agent 安全问题敲响警钟

编辑：readCrypto发布时间：3小时前

AI Agent 安全现状：漏洞无处不在

自主 AI Agent 正以惊人速度渗透医疗、金融和企业运营，但迄今最大规模的安全研究表明：绝大多数在生产环境运行的 Agent 存在严重漏洞，而当前主流安全评估手段对此几乎束手无策。

近期，斯坦福大学、MIT CSAIL、卡内基梅隆大学、ITU 哥本哈根及 NVIDIA 的联合研究团队近期研究发现，在所评估的 847 个自主智能体生产部署中，91% 存在工具链攻击漏洞，89.4% 在执行约 30 步后出现目标偏移，94% 的记忆增强型智能体面临「投毒」风险。研究共发现 2,347 个此前未知漏洞，其中 23% 被评定为严重级别。

现实案例：OpenClaw/Moltbook 事件警示

论文第一作者 Owen Sakawa 援引 2026 年初的「OpenClaw/Moltbook 事件」，佐证这一威胁已从理论走入现实：Moltbook 平台数据库中的单一漏洞，导致平台上 77 万个运行中的 AI Agent 同时遭到攻陷，每个 Agent 均持有对其用户设备、电子邮件及文件的特权访问权限。「这不再是假设性威胁，」Sakawa 表示。

六类攻击分类：2347 个已知弱点

研究覆盖医疗（289 个部署，占 34.1%）、金融（247 个，占 29.2%）、客户服务（198 个，占 23.4%）及代码生成（113 个，占 13.3%）四大行业。

研究建立了一套针对自主智能体的六类漏洞分类体系，包括目标漂移与指令衰减、规划器 - 执行器去同步、工具权限提升、记忆投毒、静默多步骤策略违规，以及委托失败。

架构缺陷：为何 AI Agent 更脆弱

研究的核心论断是，自主智能体与无状态语言模型的安全挑战在性质上截然不同。针对语言模型的安全评估聚焦于「能否让模型说出不安全的内容」；而对 AI Agent 而言，问题变为「能否让模型做出不安全的事」——包括具有现实效果的工具调用、影响未来行为的状态修改，以及跨多步骤才显现违规的计划执行。

对企业部署的影响：防护框架尚不成熟

研究团队依据实证结果提出了最低安全基线：所有生产 Agent 强制部署运行时监控；对涉及数据访问后对外通信的工具链操作设置人工审批门槛；每执行 20—25 步应强制触发人工审查，以应对步骤超出后几乎必然出现的目标偏移；记忆增强型 Agent 须对持久化状态进行加密完整性校验。

随着欧盟《人工智能法案》、美国 NIST AI 风险管理框架等监管要求的落地，企业面临的合规压力与安全风险将同步上升。在 AI Agent 被广泛部署于高风险业务场景的背景下，安全基础设施的缺位，正成为这一轮 AI 商业化浪潮中不可忽视的系统性风险。