区块链安全公司OpenZeppelin表示,在对OpenAI新推出的区块链安全人工智能基准测试EVMbench进行审计时,发现其在方法论和数据上存在缺陷和污染。
EVMbench于今年二月中旬与加密投资公司Paradigm合作推出,旨在评估不同人工智能模型识别、修复及利用智能合约漏洞的能力。
在周一的X帖子中,OpenZeppelin表示,欢迎这一创新,但近期决定对EVMbench“以相同的严谨标准”进行评估,该标准已广泛用于其帮助保护的所有协议,包括去中心化金融巨头Aave、Lido和Uniswap等。
在本次审计中,OpenZeppelin发现两大核心问题:训练数据污染以及与多项高严重性漏洞相关的分类失误。
“我们审查了数据集,发现存在方法论上的缺陷和无效的漏洞分类,其中至少有四项标记为高严重性的漏洞在实际操作中并不可利用,”OpenZeppelin表示。

来源:OpenZeppelin
EVMbench发布后,评估了人工智能代理理论上发现和利用智能合约漏洞的能力。Anthropic公司的Claude Open 4.6位居榜首,其次是OpenAI的OC-GPT-5.2以及谷歌的Gemini 3 Pro。
EVMbench测试或需修订
针对数据污染问题,OpenZeppelin指出,“AI安全领域最重要的能力是在模型从未见过的代码中发现新颖漏洞。”
然而,OpenZeppelin表示,在EVMbench对AI代理进行测试时,所有高分AI代理“很可能在预训练阶段已接触到与基准测试相关的漏洞报告”。
在EVMbench测试过程中,AI代理的互联网访问权限被切断,因此它们无法直接通过网络搜索答案。但基准测试所用漏洞均来自2024年到2025年中期期间的120次审计,而这些AI代理的知识训练截止时间通常设置在2025年中期。
因此,AI代理很可能已在自身记忆中储存了全部问题的答案。
“虽然这并不一定能让模型立即识别出这些问题,但会降低该测试的有效性。数据集的有限规模进一步缩小了评估面,使数据污染问题更加突出,”OpenZeppelin说道。
OpenZeppelin还指出,EVMbench数据集中存在一些重大事实性错误,并认为数个“高严重性漏洞”实际上并不成立。
OpenZeppelin表示,其评估了EVMbench归类为高风险的至少四项漏洞,但这些漏洞实际上无法被利用。然而,EVMbench在评分标准中,对AI代理发现这些被认为是误报的漏洞依然给出了正面评价。
“这些并非主观的严重性分歧;而是所描述攻击方式本身并不成立的发现。”
OpenZeppelin最终重申,AI将在提升区块链安全上发挥关键作用,但必须正确应用和测试技术,才能最大限度释放其潜力。
“问题不在于AI会不会改变智能合约安全——它一定会。关键在于,我们用来构建和评估这些工具所使用的数据和基准,是否能达到它们要保护的合约的同等标准。”
币搜网报道:
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复