OpenZeppelin：OpenAI的EVMbench存在数据污染问题

区块链安全公司OpenZeppelin表示，在对OpenAI新推出的区块链安全人工智能基准测试EVMbench进行审计时，发现其在方法论和数据上存在缺陷和污染。

EVMbench于今年二月中旬与加密投资公司Paradigm合作推出，旨在评估不同人工智能模型识别、修复及利用智能合约漏洞的能力。

在周一的X帖子中，OpenZeppelin表示，欢迎这一创新，但近期决定对EVMbench“以相同的严谨标准”进行评估，该标准已广泛用于其帮助保护的所有协议，包括去中心化金融巨头Aave、Lido和Uniswap等。

在本次审计中，OpenZeppelin发现两大核心问题：训练数据污染以及与多项高严重性漏洞相关的分类失误。

“我们审查了数据集，发现存在方法论上的缺陷和无效的漏洞分类，其中至少有四项标记为高严重性的漏洞在实际操作中并不可利用，”OpenZeppelin表示。

来源：OpenZeppelin

EVMbench发布后，评估了人工智能代理理论上发现和利用智能合约漏洞的能力。Anthropic公司的Claude Open 4.6位居榜首，其次是OpenAI的OC-GPT-5.2以及谷歌的Gemini 3 Pro。

EVMbench测试或需修订

针对数据污染问题，OpenZeppelin指出，“AI安全领域最重要的能力是在模型从未见过的代码中发现新颖漏洞。”

然而，OpenZeppelin表示，在EVMbench对AI代理进行测试时，所有高分AI代理“很可能在预训练阶段已接触到与基准测试相关的漏洞报告”。

在EVMbench测试过程中，AI代理的互联网访问权限被切断，因此它们无法直接通过网络搜索答案。但基准测试所用漏洞均来自2024年到2025年中期期间的120次审计，而这些AI代理的知识训练截止时间通常设置在2025年中期。

因此，AI代理很可能已在自身记忆中储存了全部问题的答案。

“虽然这并不一定能让模型立即识别出这些问题，但会降低该测试的有效性。数据集的有限规模进一步缩小了评估面，使数据污染问题更加突出，”OpenZeppelin说道。

OpenZeppelin还指出，EVMbench数据集中存在一些重大事实性错误，并认为数个“高严重性漏洞”实际上并不成立。

OpenZeppelin表示，其评估了EVMbench归类为高风险的至少四项漏洞，但这些漏洞实际上无法被利用。然而，EVMbench在评分标准中，对AI代理发现这些被认为是误报的漏洞依然给出了正面评价。

“这些并非主观的严重性分歧；而是所描述攻击方式本身并不成立的发现。”

OpenZeppelin最终重申，AI将在提升区块链安全上发挥关键作用，但必须正确应用和测试技术，才能最大限度释放其潜力。

“问题不在于AI会不会改变智能合约安全——它一定会。关键在于，我们用来构建和评估这些工具所使用的数据和基准，是否能达到它们要保护的合约的同等标准。”

免责声明：以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。

本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com，本站相关工作人员将会进行核查处理回复