阿里巴巴推出 Qwen-Robot Suite 三款模型，多项机器人“全部开源”

Qwen-Robot Suite模型

阿里巴巴 Qwen 团队于 6 月 17 日发布 Qwen-Robot Suite，一套由三个基础模型组成的具身智能全栈：Qwen-RobotNav（移动导航）、Qwen-RobotManip（机械操控）、Qwen-RobotWorld（物理世界模拟）。三个模型均已开源。

Qwen-RobotNav：五项任务统一、1,560 万笔训练数据

Qwen-RobotNav 整合了指令跟随、目标点导航、物体搜索、目标追踪和自主驾驶五项任务，提供可参数化接口（token 预算、时间衰减、每镜头权重）。模型在 1,560 万笔样本上训练，在 VLN-CE RxR 基准（真实环境视觉与语言导航）成功率达 76.5%，在 EVT-Bench（移动目标追踪）达 90%。

Qwen-RobotManip：38,100 小时训练数据，RoboChallenge Table30-v1 排名第一

不同机器人的动作表示方式截然不同（Franka 机械臂用关节角度、ALOHA 双臂用夹爪位置和方向、人形机器人用全身坐标）。阿里巴巴从开源机器人数据库和人类影片中合成约 38,100 小时的训练数据，没有依赖私有数据收集。模型在 RoboChallenge Table30-v1 基准排名第一，超过先前方法 20%。

Qwen-RobotWorld：860 万笔影片语料，EWMBench 和 DreamGen Bench 排名第一

Qwen-RobotWorld 是以语言为条件的影片世界模型，将自然语言作为通用动作接口：「拿起红色杯子往花上倒水」这个指令对夹爪、自驾车或移动导航代理均通用。训练语料库涵盖 860 万笔影片文字配对、2 亿帧，横跨操控（590 万笔样本、1,300+ 技能、20+ 形态）、自主驾驶（Waymo、NVIDIA PhysicalAI-AD）、室内导航，以及跨 14 种机械臂的人机转移。EWMBench 和 DreamGen Bench 两项基准测试排名第一，物理一致性测试满分。

Qwen 官方说明：软件模型而非实体机器人，定价与时间表尚未公布

根据 Qwen 官方博客的说明，Qwen-Robot Suite 是软件模型而非实体机器人，实际部署在家用场景仍需数年时间。阿里巴巴目前尚未公布定价、时间表或试点计划外的客户名单。Google DeepMind、Nvidia、Figure 和 Physical Intelligence 等西方实验室也在追求类似目标，但报道指出多数专注于导航或操控的单项能力，而非统一可组装的套件。