Anthropic 周五宣布了一系列选举诚信措施,旨在防止其 Claude AI 聊天机器人被武器化,用于在 2026 年美国中期选举以及今年全球其他重大赛事之前传播虚假信息或操纵选民。总部位于旧金山的公司公布了一套多管齐下的方案,其中包括自动化检测系统、针对影响力行动的压力测试,以及与一个非党派选民资源组织的合作——这些举措反映出人们对 AI 开发者在选举季节加强对其工具使用方式进行监管的压力不断加大。
选举使用政策
Anthropric 的使用政策禁止 Claude 被用于运行欺骗性的政治竞选、生成意在影响政治讨论的虚假数字内容、实施选民欺诈、干扰投票基础设施,或传播有关投票流程的误导信息。
合规测试结果
为落实其选举政策,Anthropic 使用 600 个提示测试了其最新模型——其中 300 个是有害请求,与另外 300 个合法请求配对——以衡量 Claude 对恰当请求的遵从程度,以及对有问题请求的拒绝程度。Claude Opus 4.7 和 Claude Sonnet 4.6 分别在 100% 和 99.8% 的时间里作出了适当回应。
该公司还在更复杂的操纵策略下测试了其模型。通过使用多轮模拟对话来复刻不法分子可能采用的逐步方法,在针对影响力行动场景进行测试时,当使用 Sonnet 4.6 和 Opus 4.7 时,分别有 90% 和 94% 的情况作出了适当回应。
Anthropric 还测试了其模型能否自主执行影响力行动——在没有人工提示的情况下,从策划到执行一项多步骤的端到端竞选。该公司表示,在有防护措施的前提下,其最新模型拒绝了几乎所有任务。
政治中立性评估
就政治中立性问题而言,Anthropic 在每次模型发布前都会开展评估,以衡量 Claude 在多大程度上能够一贯且公正地回应来自政治光谱各个方面的观点提示。Opus 4.7 和 Sonnet 4.6 的得分分别为 95% 和 96%。
选举信息横幅
对于寻求投票信息的用户,Claude 将展示一个选举横幅,引导他们前往 TurboVote,这是 Democracy Works 提供的非党派资源,可提供可靠的、实时的有关选民登记、投票地点、选举日期和选票细节的信息。今年晚些时候,还计划为巴西的选举设置类似的横幅。
持续监测
Anthropric 表示,它计划在选举周期推进过程中继续监测其系统,并不断完善其防御措施。
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复