五个 Frontier AI 模型在 67% 的事实核查主张上存在分歧，研究发现

一项本月发表的 Lenz Research 研究员 Kosta Jordanov 的研究发现，五个前沿 AI 模型在 1,000 条真实世界的事实核查指控中有 67% 存在分歧；只有 328 条指控出现一致同意。该研究在一个事实核查平台上，使用实际用户提交的指控来测试 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro with Search 以及 Sonar Pro。这些模型取得了 Krippendorff’s alpha 评分 0.639，低于研究人员通常认为可靠的 0.8 阈值。尽管所有模型都使用相同的四标签体系评估相同指控：true（正确）、mostly true（大体正确）、misleading（误导性）、false（错误），但仍出现分歧。随着人们越来越多地借助 AI 系统进行事实核查，这些发现凸显出可靠性方面的担忧。

研究采用的方法：使用真实用户提交的指控

研究让五个 AI 模型接收同样的 1,000 条真实世界事实核查指控，这些指控来自实际用户提交。模型必须在四个标签中选择一个：true、mostly true、misleading 或 false。该研究使用的是提交给 Lenz 事实核查平台的真实人的指控，而不是从标准测试集抽取。“这些指控不太可能出现在任何带有金标注标签的训练语料中——没有可供模式匹配的权威答案键，也没有可用来作为锚点的基准排行榜，”论文指出。

五个 AI 模型在 1,000 条指控中的 672 条上出现分歧

在 1,000 条指控中的 672 条里，至少有一个模型偏离了多数判断。在 34% 的案例中，这种分歧较为严重：一个模型称某项指控为 true（正确），而另一个模型称其为 false（错误）。研究解读称：“这不是带有公开答案键的基准项目——而是供用户请求核验、提交到事实核查平台的真实指控。每条指控只有一个判定桶可以是正确的，因此面板中的任何分歧都意味着至少一个模型的判决在这套 4 桶规则下存在标签不一致。”

统计可靠性评分低于标准阈值

衡量一致性的统计指标称为 Krippendorff’s alpha，该研究结果在 1.0（表示完全一致）且 0（表示随机机会）的量表上为 0.639。该研究表示，这表明“非平凡但有限的一致性”。研究人员指出：“模型的判决是有结构的而非随机的，但还不够一致，无法把面板当作一个可互换的单一裁判。”研究人员通常认为低于 0.8 的结果较弱。

模型在示例指控上显示出严重背离

研究人员提供了示例指控，在这些指控上 AI 模型呈现出最大的分歧，其中包括“截至 2025 年，世界银行在尼日利亚的在职投资组合规模超过 164 亿美元。”ChatGPT 5.4 认为“mostly true（大体正确）”，而 Gemini 3 Pro 将其判为“false（错误）”，其姊妹模型 Gemini 3 Pro + Search 则给出“misleading（误导性）”。

在另一个例子中，模型收到的指控是：“唐纳德·特朗普表示，应海湾盟友的请求，针对伊朗的袭击被推迟了。”GPT-5.4 认为是 false（错误），Claude Opus 4.7 称为 mostly true（大体正确），Gemini 3 Pro 也认为 false（错误），而 Gemini 3 Pro + Search 则判为 true（正确）。

只有在事实极端情况下才出现一致同意

当五个模型都确实达成一致时（仅发生在 1,000 条指控中的 328 条），它们几乎从不在“misleading（误导性）”或“mostly true（大体正确）”上达成一致。只有 4 条指控获得了“一致的 misleading（误导性）”判决；没有任何一条获得“一致的 mostly true（大体正确）”。研究人员发现：“面板在确定性判决上会汇聚；量表的中间地带正是分裂发生的地方。”一致性只在极端情况出现：要么该指控肯定为 true（正确），要么肯定为 false（错误）。

论文也谨慎地强调了这一点：“多数的前沿模型并不等同于事实真相。多数判决有时是错误的；持不同意见的单个模型有时是正确的。我们把多数作为衡量分歧的结构性参考点，而不是把它当作正确性的替代物。”

常见问题

Lenz Research 的研究发现了关于 AI 模型在事实核查上分歧一致性的什么结果？
研究发现，五个前沿 AI 模型在由实际用户提交的 1,000 条真实世界事实核查指控中，有 67% 出现分歧。只有 328 条指控达成一致同意，模型取得的 Krippendorff’s alpha 评分为 0.639，低于研究人员通常认为可接受的 0.8 可靠性阈值。

AI 模型在关于尼日利亚世界银行投资组合的示例指控上表现如何？
ChatGPT 5.4 将“截至 2025 年，世界银行在尼日利亚的在职投资组合规模超过 164 亿美元”这一指控判为 mostly true（大体正确），而 Gemini 3 Pro 将其判为 false（错误），Gemini 3 Pro + Search 则判为 misleading（误导性）。这表明这些模型在同一事实指控上存在严重分歧。

研究为何使用真实用户提交的指控，而不是标准测试集？
研究人员使用了由真实用户提交到 Lenz 事实核查平台的指控，因为其中大多数指控不太可能出现在任何带有附加金标注标签的训练语料中，从而消除了模型对基准答案键进行模式匹配的可能性，并对事实核查可靠性进行了更具现实性的测试。

免责声明：以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。

本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com，本站相关工作人员将会进行核查处理回复