OpenAI最新论文揭示AI在智能合约中的风险
智能合约安全的重要性日益凸显
随着智能合约从小型实验发展为管理超过4000亿美元资产的主要金融系统,安全性变得愈发重要。
与传统软件不同,大多数区块链程序在部署后无法更改,这意味着即使是微小的编码错误也可能导致永久性的财务损失。
EVMbench:评估AI在高风险环境中的表现
为了评估人工智能在这种高风险环境中的表现,来自OpenAI、Paradigm和OtterSec的研究人员开发了EVMbench。
它不是简单的测试挑战,而是使用了来自40个区块链项目的120个真实漏洞,使评估更接近现实条件。
“我们评估了一系列前沿代理,发现它们能够端到端地发现并利用针对实时区块链实例的漏洞。”
“我们发布了代码、任务和工具,以支持对这些能力的持续测量以及未来在安全方面的工作。”
AI是否正在重塑智能合约安全?
虽然AI极大地改善了审计和漏洞修复,但它也可以利用系统的弱点。为了解决这个问题,EVMbench帮助研究人员跟踪这些风险。
它还指导了高价值金融系统中负责任的AI开发。
也就是说,EVMbench在三个阶段测试AI代理。
来源:OpenAI
每个阶段代表不同的技术难度,反映了不断增长的安全责任。
社区对此努力表示赞赏
一位X用户账户指出:
“这是智能合约安全的分水岭时刻。仅仅6个月内,从31.9%到72.2%的攻击成功率显示,AI代理不仅在读取代码方面有所提高——他们正在掌握完整的攻击链。”
另一位用户补充道:
“攻击成功率提高了6倍,进展惊人,但进攻技能提升的速度令人担忧。”
近期引发震动的事件
然而,尽管有这种乐观情绪,OpenAI推出EVMbench后不久发生了一件不寻常的事情。涉及Claude Opus 4.6的一次攻击引发了关于“氛围编码”智能合约风险的严重担忧。
在此案例中,AI帮助编写了存在漏洞的Solidity代码,将cbETH资产的价格错误设置为1.12美元,而不是其实际价值约2200美元,触发了清算并造成了近178万美元的损失。
来源:X
这表明,在没有仔细的人工审查的情况下,将关键财务逻辑交给AI可能会将小错误变成重大损失。
局限性依然存在
EVMbench有明显的局限性。它仅包含120个精选漏洞,无法评估新发现的问题。
Detect Mode还会产生误报。少量Patch和Exploit任务反映了创建它们所需的大量手动工作。
此外,沙盒环境无法完全反映现实世界的条件,例如跨链活动、时间复杂性和长期网络历史。
不用说,随着区块链采用的加速,其滥用也在迅速演变。
最近,Group-IB的研究还显示,DeadLock勒索软件正在使用Polygon智能合约来隐藏服务器基础设施并逃避检测。
这些发展共同标志着一个令人不安的转变,智能合约原本旨在增强透明度和信任,却越来越多地被重新用作网络犯罪的工具。
最终总结
- 像EVMbench这样的工具帮助研究人员在现实的安全环境中衡量AI的能力。
- 有限的数据集和受控环境仍然无法捕捉现实世界区块链的复杂性。





