
阿里巴巴 Qwen 团队于 6 月 17 日发布 Qwen-Robot Suite,一套由三个基础模型组成的具身智能全栈:Qwen-RobotNav(移动导航)、Qwen-RobotManip(机械操控)、Qwen-RobotWorld(物理世界模拟)。三个模型均已开源。
Qwen-RobotNav:五项任务统一、1,560 万笔训练数据
Qwen-RobotNav 整合了指令跟随、目标点导航、物体搜索、目标追踪和自主驾驶五项任务,提供可参数化接口(token 预算、时间衰减、每镜头权重)。模型在 1,560 万笔样本上训练,在 VLN-CE RxR 基准(真实环境视觉与语言导航)成功率达 76.5%,在 EVT-Bench(移动目标追踪)达 90%。
Qwen-RobotManip:38,100 小时训练数据,RoboChallenge Table30-v1 排名第一
不同机器人的动作表示方式截然不同(Franka 机械臂用关节角度、ALOHA 双臂用夹爪位置和方向、人形机器人用全身坐标)。阿里巴巴从开源机器人数据库和人类影片中合成约 38,100 小时的训练数据,没有依赖私有数据收集。模型在 RoboChallenge Table30-v1 基准排名第一,超过先前方法 20%。
Qwen-RobotWorld:860 万笔影片语料,EWMBench 和 DreamGen Bench 排名第一
Qwen-RobotWorld 是以语言为条件的影片世界模型,将自然语言作为通用动作接口:「拿起红色杯子往花上倒水」这个指令对夹爪、自驾车或移动导航代理均通用。训练语料库涵盖 860 万笔影片文字配对、2 亿帧,横跨操控(590 万笔样本、1,300+ 技能、20+ 形态)、自主驾驶(Waymo、NVIDIA PhysicalAI-AD)、室内导航,以及跨 14 种机械臂的人机转移。EWMBench 和 DreamGen Bench 两项基准测试排名第一,物理一致性测试满分。
Qwen 官方说明:软件模型而非实体机器人,定价与时间表尚未公布
根据 Qwen 官方博客的说明,Qwen-Robot Suite 是软件模型而非实体机器人,实际部署在家用场景仍需数年时间。阿里巴巴目前尚未公布定价、时间表或试点计划外的客户名单。Google DeepMind、Nvidia、Figure 和 Physical Intelligence 等西方实验室也在追求类似目标,但报道指出多数专注于导航或操控的单项能力,而非统一可组装的套件。
常见问题
Qwen-Robot Suite 的三个模型分别针对什么场景?
根据 Qwen 官方博客,三模型的定位为:Qwen-RobotNav 负责移动导航(五种任务统一);Qwen-RobotManip 负责跨机器人的机械操控(兼容不同动作表示方式);Qwen-RobotWorld 负责物理世界模拟(语言为通用动作接口)。三模型各自独立,合在一起构成具身智能全栈。
「机器人 Android 时刻」的定位是 Qwen 自己说的么?
是的。「机器人领域的 Android 时刻」是阿里巴巴 Qwen 官方在发布时使用的定位描述,意指 Qwen-Robot Suite 是作业系统层的平台,而非硬件。这是 Qwen 的市场定位表述,非第三方评级。
Qwen-Robot Suite 是否对外开源?
根据 Qwen 官方博客,三个模型全部开源发布。阿里巴巴的训练数据来自开源机器人数据库和人类影片,未依赖私有数据收集,开源策略是本次发布的核心讯息之一。
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复