Anthropic 报告：AI 决策胜率升至 64%，代码优化 52 倍

2026年6月5日上午10:20 • 专题 • 阅读 1928

Mythos Preview模型優化

Anthropic 于 6 月 4 日发布报告，揭示其 Mythos Preview 模型在辅助 AI 研究决策的测试中，在 64% 的情况下做出了优于人类研究员的决策，而同类测试在 2024 年的胜率仅为 22%。在优化小型 AI 模型训练代码的标准测试中，Mythos Preview 达到 52 倍速度提升。

研究决策测试的方法与数据

Anthropic 公开的测试设计：团队向 Claude 展示人类研究员即将做出错误研究方向判断的对话记录，并询问 AI「接下来应如何做」。Mythos Preview 在 64% 的情况下给出了优于人类研究员的回答，2024 年时同类测试的胜率为 22%。

Anthropic 在报告中说明，这一结果「暗示着 AI 已开始具备指导高级研究的能力」，但同时表示目前尚无法确定 Claude 是否具备自主选择「正确研究问题」的全局判断力。

Anthropic 报告中的代码效率数据

Anthropic 的代码效率相关指标：

内部工程师季度代码交付量：为 2021-2025 年平均水平的 8 倍

开放性代码问题成功率：在 6 个月内提升 50 个百分点，达到 76%

训练代码优化速度：Mythos Preview 达到 52 倍提升

比较基准：Claude Opus 4（2024 年 5 月）平均约 3 倍；熟练人类工程师通常需 4-8 小时实现约 4 倍

Anthropic 报告指出，部分内部工程师认为 Claude 的代码质量已逼近人类水平。

Anthropic 研究所：确认成立，研究 RSI 潜在影响

Anthropic 宣布将与外部利益相关方合作成立「Anthropic 研究所（Anthropic Institute）」，致力于研究强大 AI 系统的深远影响。

Anthropic 在报告中表示，AI 加速发展既有望为医学、科技与经济领域带来正面影响，也可能加剧 AI 对齐（Alignment）难题，并导致「失去控制（Loss of control）」的风险，Anthropic 称这一影响「值得更高度的重视」。

常见问题

Mythos Preview 决策胜率测试的具体设计是什么？

Anthropic 向 Claude 展示研究员即将走入错误研究方向的对话记录，并询问「接下来应如何做」，测试 AI 的研究判断力。Mythos Preview 在 64% 的情况下给出了优于人类研究员的回答，相比 2024 年同类测试 22% 的胜率，在两年内实现了爆发性增长。

Anthropic 报告中提到的「递归自我提升（RSI）」是什么？

递归自我提升（Recursive Self-Improvement）是指 AI 系统自主开发出比自身更强大的下一代 AI 的能力。Anthropic 在 2026 年 6 月 4 日的报告中表示，这一进程正以「超乎预期的速度」推进，同时坦言目前尚无法确定 Claude 是否具备自主选择「正确研究问题」的全局判断力。