MiniMax Intelligence 首席执行官李大海在 2026 北京致远大会上表示,尽管代理技术进展迅速,但仍需要采取审慎的方式。李大海在接受澎湃新闻及其他媒体采访时解释称,公众对零错误代理的期待超过了当前技术发展曲线所能交付的水平,因为该技术仍需要时间成熟。他将 2025 年认定为代理的首个年份,预计将迎来爆发式增长,并将深刻影响人类社会。不过他强调,要对当前 AI 代理领域的技术能力进行冷静评估。
李大海描述代理技术局限性与快速演进
李大海承认,大模型与代理技术的融合正在快速推进,部分场景已落地到实际应用中。在谈及代理局限时,李大海直言不讳:“到处都是问题。”他进一步阐述:“模型和 Agent 技术的演进非常快”,并解释称:“也许今天某些工作有 10% 的错误率,下个月错误率降到 1%——快速演进已经成为核心趋势。”
MiniMax 首席执行官反驳“小模型蒸馏”误区
李大海直接挑战业界普遍的看法,即“做出好的小模型必须来自对超大规模基础模型的蒸馏”,并称之为“认知误区”。他解释:“在蒸馏背后有一个非常具体的前提:被蒸馏的对象本身必须是一个好的模型。蒸馏本质上是:对于那些自身缺乏开发基础模型能力,但又想做应用落地的公司,他们会采用现成的小型基础模型,并通过微调获得特定场景能力。在这个过程中,他们可能确实会使用其他大模型来合成数据,让小模型获得相应能力。”他表示,这是一切大模型训练的范式,而不只限于小模型。
MiniMax 将训练负载迁移到国产芯片
李大海披露:“今年开始,随着整个行业将推理迁移到国产芯片,我们也在逐步把训练工作迁移到国产芯片和国产集群。”他指出提升国产算力生态的两条并行路径:第一条是自下而上的精细打磨,即大模型公司通过自身的训练实践逐步改善生态,“就像湿润石板的钻头,一点点来,需要时间。”第二条是自上而下的规划,以 MiniMax 与致远研究院在 FlagOS 软件生态上的深度合作为例:大模型公司与芯片公司建立深度合作,并在规划之下推进。MiniMax Intelligence AIInfra 负责人李宇轩表示,推理实际上对精度的要求比训练更高,而 MiniMax 提出的模型缩放技术成为关键突破:实现用非常小的模型去预测大模型的效果,并对国产芯片进行深入评测,将实验细节与海外厂商对齐,且验证训练精度是可用的。MiniMax 披露,其已在华为平台上实现了极低比特宽度的量化感知训练,效率达到普通训练的 95%。李大海解释称,5% 的损失来自量化器本身的开销,而通过与华为的深度合作,这一开销已被优化到最低。
MiniCPM-5 1B 在 ArtificialAnalysis 基准上接近 GPT-4o 表现
MiniMax Intelligence 宣布,MiniCPM 小炮第五代 1B 版本在权威 ArtificialAnalysis(AA)评测中取得 17.9 分。开源社区研究者对比发现,2024 年 5 月发布的 GPT-4o(200B 参数)在同类评测中的得分为 18.3-18.6,两者差距仅为 0.4-0.7 分。李大海表示:“在 2024 年我们预测,到 2026 年底,端侧模型的智能水平可以达到 GPT-4 水平。根据当前数据来看,这一目标已提前完成。”
在此前的“MiniMax 开源周”期间,MiniMax Intelligence 发布了两款端侧大模型:MiniCPM5-1B 和 BitCPM-CANN。MiniCPM5-1B 再次刷新模型智能密度的上限:在仅 1B 参数规模的情况下,它在国际知名的 AA-Index 领先榜上超过了所有 2B 以下参数的模型;与 3 个月前发布的 Qwen3.5-2B 相比,MiniCPM5-1B 不仅性能更好,同时参数量减半。
ForgeTrain:AI 书写的框架训练速度比 NVIDIA Megatron 快 10%
MiniCPM5-1B 模型由 MiniMax Intelligence 自主研发的 AI 训练框架 ForgeTrain 进行预训练。ForgeTrain 是全球首个完全由 AI 编写的、达到量产级的大模型预训练框架,不涉及人类程序员参与。其训练速度比 NVIDIA Megatron 快 10%。
常见问题解答
李大海在 2026 北京致远大会上对代理技术局限性的看法是什么?
李大海表示,公众对零错误代理的期待超过了当前技术发展曲线所能交付的水平,而该技术仍需要时间成熟。他将当前代理局限描述为“到处都是问题”,但强调错误率正在快速下降——在部分情况下,一周到一个月内从 10% 降到 1%。
MiniCPM-5 1B 的表现与 ArtificialAnalysis 基准上的 GPT-4o 相比如何?
MiniCPM-5 1B(1B 参数)在 ArtificialAnalysis 评测中得分为 17.9,而 GPT-4o(200B 参数,2024 年 5 月发布)在同一评测中得分为 18.3-18.6,两者差距仅为 0.4-0.7 分。
ForgeTrain 是什么?它与 NVIDIA Megatron 有何不同?
ForgeTrain 是 MiniMax Intelligence 自主研发的 AI 训练框架,是全球首个完全由 AI 编写、且不涉及人类程序员参与的量产级大模型预训练框架。它的训练速度比 NVIDIA Megatron 快 10%。
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复