微软的 Fara1.5 AI 在网页浏览方面胜过 OpenAI 和 Google

微软研究院本周发布 Fara1.5，这是一种用于网页浏览任务的开放权重 AI 模型，在行业基准测试中表现优于 OpenAI 的 Operator 以及谷歌的 Gemini 2.5 Computer Use。Fara1.5-27B 在 Online-Mind2Web 上得分 72%，而 OpenAI Operator 为 58.3%，Gemini 2.5 Computer Use 为 57.3%。该发布标志着计算机使用代理（computer use agents）竞争格局的转变——这类 AI 系统旨在读取浏览器屏幕并执行点击、滚动和输入等操作，而无需依赖特殊插件。不同于 OpenAI 的专有、基于云的 Operator（于 2025 年 1 月推出，定价为每月 200 美元，随后在 2025 年 8 月被关闭）以及谷歌的 Gemini 产品，Fara1.5 为开源并公开发布了权重。微软之所以实现这一性能，源于其重新思考了完整的开发流程：从数据生成和训练目标，到模型设计与编排。

模型规格与可用性

Fara1.5 提供三种规模：40 亿、90 亿和 270 亿参数，均基于 Qwen 3.5——阿里巴巴的基础模型，微软对其进行了专门微调以适配浏览器工作。Fara1.5-9B（中型版本）在 Online-Mind2Web 上得分 63.4%——领先于 OpenAI 和谷歌的相关产品。90 亿参数模型现已上线于 Azure AI Foundry，而 40 亿和 270 亿版本将很快到来。

基准测试表现

Online-Mind2Web 是主要基准，测试 AI 代理在 136 个热门在线实时网站上，完成 300 个多样的真实世界任务的正确率。任务涵盖产品对比、表单填写以及预约/订服务等。该评分反映的是在实际、不断变化的互联网中正确完成的任务数量。

在 WebVoyager 上（第二个基准，用于衡量实时网页上的任务成功率），Fara1.5-27B 达到 88.6%，略高于 OpenAI Operator 的 87.0%，并在 83.0% 之上超越 H 公司的 Holo2（300 亿参数）。

开源竞争对手的得分更低：阿里巴巴的 GUI-Owl-1.5（80 亿参数）为 48.6%，而 AI2 的 MolmoWeb 为 35.3%。微软此前的模型 Fara-7B 得分为 34.1%——这意味着在相近规模下，Fara1.5-27B 的表现几乎翻倍。Yutori 的 Navigator n1 作为领先的专有替代方案，达到了 64.7%。

训练方法

微软使用 FaraGen1.5 生成训练数据，采用 GPT-5.4——OpenAI 的模型——作为“教师代理”，演示如何完成浏览器任务。这些演示内容构成了 Fara1.5 的训练数据。

团队还创建了 6 个完全可运行的真实网站副本，包括邮件客户端、日历和市场平台。此合成域训练使模型能够在不访问真实账号的情况下练习需要登录或不可逆操作的任务，从而提升其在“受限”任务上的表现。

安全与用户控制

每个模型都被设计为在执行不可逆操作前先停止并征求确认。Fara1.5 在 MagenticLite 中运行，这是一个带沙箱的浏览器环境：它会记录每一步操作，并允许用户在任意时刻中止代理。微软研究院高级产品经理负责人 Yash Lara 表示：“在关键节点等提供强有力防护措施的同时，保持顺畅的用户旅程至关重要。拥有像 Microsoft Research 的 Magentic-UI 这样的界面，对于让用户在必要时有机会介入很关键，同时也能帮助避免审批疲劳。”