币搜网报道:
现在所有东西都是人工智能写的吗?这篇文章也是吗?
大型语言模型的普及催生了一种新的、谨慎的阅读习惯:人们现在读完一段文字后,会疑惑它是谁——或者是什么——写的。这种焦虑并非空穴来风。
近期研究不断表明,机器生成的文本数量日益增长,其与人类写作的差异也越来越明显,从具体的用词到易于识别的结构特征,无不体现着这种差异。这些差异之所以重要,是因为它们的影响远不止于学校作文和研究论文;它们还会影响企业沟通、新闻报道和人际邮件,进而可能损害信任和真实性。
研究人员对文体计量检测技术进行了调查,发现词汇多样性、从句结构和功能词分布方面存在一致且可测量的模式——一种在不同任务和提示中都存在的统计特征。虽然这些特征随着模型的迭代而逐渐减少——OpenAI例如,它过度依赖破折号——人工智能生成的粗糙文字与人类撰写的文字之间的差异仍然足够大,足以影响读者和编辑如何看待那些过于精雕细琢的文本。
最近《华盛顿邮报》 对 328,744 条 ChatGPT 消息的分析用真实世界的数据强化了这一点。研究发现,该模型严重依赖表情符号、有限的常用词汇,以及每个人都熟悉的“反义平行”表达方式:“不是 X,而是 Y;”或“与其说是关于 X,不如说是关于 Y”。
这邮政报告也警告不要过度自信:这些特征都不能证明文章是人工智能创作的,它们只是提高了这种可能性。不过,当一篇文章同时具备其中几个特征时,这种信号就更难忽视了。
以下是五个最能表明文本可能是机器生成的信号,每个信号都基于当前的研究。
5种最常见的AI说法
-
反比平行和过于简化的对比
人工智能过度使用简洁而富有戏剧性的转折点“不是X,而是Y”及其变体“不仅是X,还有Y”。这些结构营造出一种洞察深刻的假象,但实际上却鲜有实质内容。文体计量学研究表明,LLM 的输出倾向于采用平衡、程式化的句式结构,而不是人类作家使用的不规则、直觉式的节奏。仅“不仅是 X,还有 Y”的各种变体就出现在 7 月份所有消息的约 6% 中——对于一种修辞手法来说,这是一个惊人的比例。
-
过于规整的结构和明显一致的节奏
LLM生成的文本读起来常常像是出自一位反复修改却从不即兴发挥的人之手。段落遵循教科书式的模式,过渡自然流畅,节奏几乎像数学公式一样均匀。在自然人类写作——即使是精心撰写的文字——通常也包含离题、打断、语调转换和节奏不对称等特点。通过对语言模型(LLM)的输出结果与人类短篇小说进行比较的文体计量学研究发现,模型在句子长度和句法结构上的差异要小得多。
-
语气平淡,措辞过于客气。
人工智能的语气往往很友好,这种友好是成年人说话的方式,除非他们是人力资源或客服人员。比如“可以理解……”之类的短语,或者用温和的结尾来概括一切(“总而言之……”)。对检测方法的定量评价指出,LLM 生成的散文比人类文本表现出更一致的情感和更少的突兀情感变化。
-
模糊的抽象概念和不断演变的“安全”词汇
模型在缺乏具体细节时,会大量依赖通用名词——例如“生态系统”、“框架”、“动态”——以及动词,例如“利用”、“解锁”或“导航”。研究一致表明,人工智能文本的词汇多样性较低,名词化程度较高。《华盛顿邮报》和自然分析还发现,某些人工智能陈词滥调并非一成不变:臭名昭著的“深入研究”(delve)一词已基本消失,取而代之的是“核心”(core)和“现代”(modern)等新潮词汇。这一点至关重要,因为词汇变化迅速;结构比任何固定的词汇表都更可靠。
-
平衡的从句和格外谨慎的措辞
法学硕士们喜欢对称:“虽然 X 是正确的,但 Y 也很重要”,或者“无论你是初学者还是专家……” 这些结构让人感到安全,因为它们避免了承诺。研究表明,人工智能文本过度使用某些功能词模式和从句结构的频率与人类的基准水平存在显著差异。人类的表达往往要么更生硬,要么更冗长;而机器则力求做到措辞上的平衡。
顺便一提,这篇文章的大部分内容是由人工智能生成的。
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复