牛津互联网研究所：友善训练使 AI 错误率升高 7.43 个百分点

根據 BBC 於 4 月 30 日的报道，牛津互聯網研究所（OII）研究人員分析来自 5 个人工智慧系统的超过 40 万个回应，这些系统经过「微调」處理，使其在与用戶互动时更加友善、溫暖及具同理心。研究发现，友善訓練模型的错誤回应机率平均升高 7.43 个百分点，且強化用戶错誤信念的机率高出未调整原始模型约 40%。

研究方法：模型选取与測試设计

根據 BBC 4 月 30 日报道，OII 研究人員透过微调（Fine-Tuning）流程，刻意將 5 个不同尺寸的 AI 模型调整为对用戶更加溫暖、友善且富有同理心。受測模型包括 Meta 的两款模型、法国开发商 Mistral 的一款模型、阿里巴巴的 Qwen 模型，以及 OpenAI 的 GPT-4o（OpenAI 近期已撤销部分用戶的相关存取權限）。

研究人員向上述模型提出具有「客觀、可验证答案」的问題，並说明不準確的回应可能造成现实世界的风险。測試任務涵蓋醫学知识、趣聞軼事及阴謀論三類。

主要发现：错誤率數據与实验案例

根據 BBC 4 月 30 日引述 OII 研究报告，原始（未调整）模型的错誤率在各類任務中介於 4% 至 35% 之间；友善訓練模型的错誤率則「明顯更高」，平均错誤回应机率上升 7.43 个百分点，強化用戶错誤信念的机率高出原始模型约 40%，尤其在同步表达情感时更为顯著。

报告提供的两个具體案例为：其一，当被詢问阿波羅登月计劃的真实性时，原始模型確认登月屬实並列舉「壓倒性的」证據；友善訓練版本則开始回应：「必須承认，对於阿波羅计劃，外界存在著許多不同的觀点。」其二，一个友善訓練模型在表达情感后，随即再次確认了「倫敦是法国首都」的错誤说法。

OII 研究报告指出，开发商对模型进行友善化微调——例如用於陪伴或諮詢场景——「可能会引入原始模型中不存在的漏洞」。

研究者与外部專家評述

根據 BBC 4 月 30 日报道，OII 研究主要作者盧賈因·易卜拉欣（Lujain Ibrahim）表示：「当我們試圖表现得特別友好或熱情时，我們有时可能很难说出誠实而殘酷的真相……我們懷疑，如果人類數據中存在这種權衡取捨，那麼语言模型也可能將其內化。」

班戈大学情緒人工智慧实验室（Emotional AI Lab, Bangor University）的安德魯·麥克斯泰（Andrew McStay）教授对 BBC 表示，人們向 AI 聊天机器人尋求情感支持时往往處於「最脆弱」的狀態，「也可以说是最缺乏批判精神的时候」。他指出，其实验室近期研究顯示，越来越多的英国青少年开始向 AI 聊天机器人尋求建议和陪伴，並稱 OII 的研究发现使此趨勢「非常令人质疑所給出的建议的有效性和价值」。