OpenAI 发布 GPT-5.5 AI 模型，具备原生计算机使用能力

2026年4月24日下午10:12 • 专题 • 阅读 4840

OpenAI 于 2026 年 4 月 23 日正式发布 GPT-5.5，这是一款新的 AI 模型，旨在通过原生计算能力来理解用户在现实应用中的意图。根据 OpenAI 的公告，该模型具备通用型的原生能力，使其能够在桌面应用中导航、点击按钮并输入文本，以完成多步骤工作流。

GPT-5.5 将原生计算与先进推理相结合，能够自主导航执行高水平专业任务所需的软件工具。该模型的 ~1.1 百万-token 上下文窗口可让它处理此前需要手动分块的大规模金融数据集。OpenAI 的金融团队使用 GPT-5.5 审阅了 24,771 份 K-1 税表 (71,637 页)，并且比上一年提前两周完成了任务。

性能基准

在内部投行建模任务中，GPT-5.5 得分为 88.5%，在 FinancialAgent v1.1 基准测试中得分为 60%，表现优于 GPT-5.4，领先四个百分点。该模型在 GDPval 上取得 84.9% 的成绩，该测试检验智能体在 44 个职业中生成特定知识工作的能力。在 OSWorld-Verified（衡量模型的自主真实电脑操作）上，模型达到 78.7%。GPT-5.5 在 Tau2-bench Telecom 上得分 98%，该测试评估极其困难的客户服务工作流。

Go-to-Market 团队的一名员工确认，自动化每周业务报告将使每周人工工作量大约节省 5-10 小时。

代码生成与系统优化

OpenAI 表示，GPT-5.5 用于帮助编写其自身托管基础设施的代码。该模型通过分析生产流量模式来编写自定义负载均衡启发式，从而实现了“系统级优化”，使其自身的 token 生成速度提高了 20%。

在一次开发者测试中，要求该模型“重新架构一款 markdown 编辑器”，它返回了一个几乎完整的 12-diff 堆栈，并且只需要极少的人为修正。OpenAI 指出，新模型在更少的轮次内即可达到正确答案，并且与 GPT-5.4 相比，在执行相同的 Codex 任务时使用的 tokens 减少了 40%。

Every 的创始人兼 CEO Dan Shipper 将 GPT-5.5 描述为首个具有“严肃的概念清晰度”的编码模型。Shipper 在他和最优秀的工程师花了数天时间调试上线后的应用问题之后，对 GPT-5.5 进行了测试。根据 Shipper 的说法，GPT-5.5 实现了 GPT-5.4 做不到的事情：它检查了损坏的代码，并产出了工程师最终决定采用的重写方案。该模型可以“记住”并交叉引用整套信息库而不丢失位置，从而降低了困扰早期版本的“幻觉”。

自主能力与自我纠错

OpenAI 声称 GPT-5.5 针对“自我纠错”和自主性进行了优化。它更擅长理解含糊指令，并使用计算机界面 (clicking, typing, browsing) 来在无需人工介入的情况下完成目标。当需要智能体来操作软件、管理以终端为主的工作流，或在整个代码库 (500K+ tokens) 范围内进行推理且具有高检索准确率时，该模型会变得特别有用。

GPT-5.5 思考功能

在 ChatGPT 中，OpenAI 推出了“GPT-5.5 Thinking”，公司表示该功能可为更困难的问题解锁更快的帮助。该功能为用户提供更聪明、更简洁的回答，帮助他们更高效地完成复杂任务。它在诸如信息综合与分析、编码以及研究等文档负载较高的专业工作中表现出色，尤其是在使用插件时。

早期 GPT-5.5 Pro 测试者报告称，ChatGPT 能承担的工作在质量和难度上都出现了显著提升。其更低的延迟使其在需要高要求的任务中比 GPT-5.4 Pro 更可用。GPT-5.5 Pro 的回复结构良好、相关、有用且准确，在法律、数据科学、商业和教育领域尤其表现突出。

定价与可及性

尽管有基础版本可用，但最强大的版本 (GPT-5.5 Pro) 对个人订阅者的费用为每月 100 美元。对企业而言，即便 token 效率提高了 40%，每个输出 token 的成本仍大约是 GPT-5.4 的两倍。大规模部署智能体的整体支出可能相当可观。人们越来越担心，最高级别的推理能力将成为一种“奢侈品”，仅供资金雄厚的公司使用，这可能会扩大大型企业与较小初创公司之间的生产力差距。

免责声明：以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。

本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com，本站相关工作人员将会进行核查处理回复