币搜网报道:
周四,OpenAI和 人类学在各自产品线中相隔不到一小时的时间里相继发布了新的旗舰级 AI 模型,凸显了领先开发商之间为主导企业软件和高级编码工具而展开的激烈竞争。
Anthropic 发布了 Claude Opus 4.6,并大力宣传其在长上下文推理和基于代理的工作流程方面的进步;而 OpenAI 随后不久发布了 GPT-5.3 Codex,这是一个针对代理编码和软件开发进行优化的模型。
几乎同时推出的产品凸显了竞争对手迭代速度之快,各公司都在竞相与大型企业客户签订长期合同。
基准测试结果表明,这两个模型针对不同的强度进行了优化。
根据两家公司公布的数据,Claude Opus 4.6 在与法律和金融推理相关的任务中表现更佳,而 GPT-5.3 Codex 在智能编码测试和效率指标方面表现更优。
投资者重新评估传统软件供应商的前景之际,这些消息传出,多家信息和专业服务公司的股价本周下跌。人工智能原生平台可能会削弱对现有企业工具的需求。
Anthropic Claude Opus 4.6 在长上下文推理和专业任务方面取得了进步,引用了 100 万个标记的上下文窗口和 MRCR v2(复杂信息检索的基准)76% 的得分。
该公司表示,该模型在财务和法律任务方面也优于早期版本,并引入了“代理团队”,允许多个 AI 代理并行处理编码和文档。
OpenAI GPT-5.3 Codex 随后发布,将其定位为针对智能体编码和研究而优化的模型。
OpenAI 表示,Codex 在 Terminal-Bench 2.0(一项智能体编码基准测试)中获得了 77.3% 的分数,而 Claude Opus 4.6 的分数为 65.4%,并且 Codex 完成任务的速度更快,使用的令牌更少。
OpenAI 还表示,Codex 的早期版本曾被内部用于帮助调试训练和管理部署,这标志着模型首次在加速自身发展方面发挥了直接作用。
综合来看,结果表明两种模型均不占绝对优势,性能优势取决于企业是优先考虑专业推理还是自主软件开发。
预计谷歌也将在未来几个月内推出其 Gemini 模型的更新,而包括 DeepSeek 在内的其他人工智能开发商也在准备发布新版本,这加剧了该领域的竞争。
不过,仅凭基准测试结果不太可能决定市场领导地位,因为更广泛的采用和企业部署正在日益塑造竞争格局。
随着竞争的持续加剧,基于智能体的工作流程能否成为经济活动的核心组成部分,时间会给出答案。OpenAI 和 Anthropic 显然对此寄予厚望。
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复