
Anthropic 于 6 月 4 日发布报告,揭示其 Mythos Preview 模型在辅助 AI 研究决策的测试中,在 64% 的情况下做出了优于人类研究员的决策,而同类测试在 2024 年的胜率仅为 22%。在优化小型 AI 模型训练代码的标准测试中,Mythos Preview 达到 52 倍速度提升。
研究决策测试的方法与数据
Anthropic 公开的测试设计:团队向 Claude 展示人类研究员即将做出错误研究方向判断的对话记录,并询问 AI「接下来应如何做」。Mythos Preview 在 64% 的情况下给出了优于人类研究员的回答,2024 年时同类测试的胜率为 22%。
Anthropic 在报告中说明,这一结果「暗示着 AI 已开始具备指导高级研究的能力」,但同时表示目前尚无法确定 Claude 是否具备自主选择「正确研究问题」的全局判断力。
Anthropic 报告中的代码效率数据
Anthropic 的代码效率相关指标:
内部工程师季度代码交付量:为 2021-2025 年平均水平的 8 倍
开放性代码问题成功率:在 6 个月内提升 50 个百分点,达到 76%
训练代码优化速度:Mythos Preview 达到 52 倍提升
比较基准:Claude Opus 4(2024 年 5 月)平均约 3 倍;熟练人类工程师通常需 4-8 小时实现约 4 倍
Anthropic 报告指出,部分内部工程师认为 Claude 的代码质量已逼近人类水平。
Anthropic 研究所:确认成立,研究 RSI 潜在影响
Anthropic 宣布将与外部利益相关方合作成立「Anthropic 研究所(Anthropic Institute)」,致力于研究强大 AI 系统的深远影响。
Anthropic 在报告中表示,AI 加速发展既有望为医学、科技与经济领域带来正面影响,也可能加剧 AI 对齐(Alignment)难题,并导致「失去控制(Loss of control)」的风险,Anthropic 称这一影响「值得更高度的重视」。
常见问题
Mythos Preview 决策胜率测试的具体设计是什么?
Anthropic 向 Claude 展示研究员即将走入错误研究方向的对话记录,并询问「接下来应如何做」,测试 AI 的研究判断力。Mythos Preview 在 64% 的情况下给出了优于人类研究员的回答,相比 2024 年同类测试 22% 的胜率,在两年内实现了爆发性增长。
Anthropic 报告中提到的「递归自我提升(RSI)」是什么?
递归自我提升(Recursive Self-Improvement)是指 AI 系统自主开发出比自身更强大的下一代 AI 的能力。Anthropic 在 2026 年 6 月 4 日的报告中表示,这一进程正以「超乎预期的速度」推进,同时坦言目前尚无法确定 Claude 是否具备自主选择「正确研究问题」的全局判断力。
Anthropic 研究所的定位和目标是什么?
Anthropic 宣布将与外部利益相关方合作成立 Anthropic 研究所,专门研究强大 AI 系统的深远影响。Anthropic 表示成立目的是确保人类能够为 AI 技术的未来做出审慎选择,具体研究范围和时程尚未完整披露。
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复