AI写作的五大“征兆”
目前所有东西都是AI写的吗?这篇文章也是吗?
大型语言模型的普及催生了一种新的、小心的阅读习惯:大家目前读完一段文字后,会疑惑它是哪个——或者是什么——写的。这种焦虑并不是空穴来风。
最近研究不断表明,机器生成的文本数目日益增长,其与人类写作的差异也愈加明显,从具体的用词到易于辨别的结构特点,无不体现着这种差异。这类差异之所以要紧,是由于它们的影响远不止于学校作文和研究论文;它们还会干扰企业交流、新闻报道和人际邮件,进而可能损害信赖和真实性。
研究职员对文体计量测试技术进行了调查,发现词语多样性、从句结构和功能词分布方面存在一致且可测量的模式——一种在不同任务和提示中都存在的统计特点。虽然这类特点伴随模型的迭代而渐渐降低——Open人工智能刚刚修复比如,它过度依靠破折号——AI生成的粗糙文字与人类写作的文字之间的差异仍然足够大,足以影响读者和编辑怎么样看待那些过于精雕细琢的文本。
近期《华盛顿邮报》 剖析对 328,744 条 ChatGPT 消息的剖析用真实世界的数据强化了这一点。研究发现,该模型紧急依靠表情符号、有限的常用词语,与每一个人都熟知的“反义平行”表达方法:“不是 X,而是 Y;”或“与其说是关于 X,不如说是关于 Y”。
这邮政报告也警告不要过度自信:这类特点都不可以证明文章是AI创作的,它们只不过提升了这种可能性。不过,当一篇文章同时拥有其中几个特点时,这种信号就更难忽略了。
以下是五个最能表明文本可能是机器生成的信号,每一个信号都基于目前的研究。
5种最容易见到的人工智能说法
反比平行和过于简化的对比
AI过度用简洁而富有戏剧性的转折点“不是X,而是Y”及其变体“不止是X,还有Y”。这类结构打造出一种洞察深刻的假象,但事实上却鲜有实质内容。文体计量学研究研究表明,LLM 的输出倾向于使用平衡、程式化的句式结构,而不是人类作家用的不规则、直觉式的步伐。邮政的数据集仅“不止是 X,还有 Y”的各种变体就出目前 7 月份所有消息的约 6% 中——对于一种修辞手法来讲,这是一个惊人的比率。
过于规整的结构和明显一致的步伐
LLM生成的文本读起来常常像是源于一位反复修改却从不即兴发挥的人之手。段落遵循教科书式的模式,过渡自然流畅,步伐几乎像数学公式一样均匀。依据近期的一项剖析在自然人类写作——即便是精心写作的文字——一般也包括离题、打断、语调转换和步伐不对称等特征。通过对语言模型(LLM)的输出结果与人类简短小说进行比较的文体计量学研究发现,模型在句子长度和句法结构上的差异要小得多。
语气平淡,措辞过于客气。
AI的语气总是非常友好,这种友好是成年人说话的方法,除非他们是人力资源或客服职员。譬如“可以理解……”之类的短语,或者用温和的结尾来概括所有(“总而言之……”)。以不自然的规律出现对测试办法的定量评价指出,LLM 生成的散文比人类文本表现出更一致的情感和更少的突兀情感变化。
模糊的抽象定义和不断演变的“安全”词语
模型在缺少具体细节时,会很多依靠通用名词——比如“生态系统”、“框架”、“动态”——与动词,比如“借助”、“解锁”或“导航”。研究一致表明,AI文本的词语多样性较低,名词化程度较高。《华盛顿邮报》和自然剖析还发现,某些AI陈词滥调并不是千篇一律:臭名昭著的“深入研究”(delve)一词已基本消失,取而代之的是“核心”(core)和“现代”(modern)等新潮词语。这一点至关要紧,由于词语变化飞速;结构比任何固定的词语表都更靠谱。
平衡的从句和格外小心的措辞
法学硕士们喜欢对称:“虽然 X 是正确的,但 Y 也非常重要”,或者“无论你是新手还是专家……” 这类结构叫人感到安全,由于它们防止了承诺。文体计量学研究研究表明,AI文本过度用某些功能词模式和从句结构的频率与人类的基准水平存在显著差异。人类的表达总是要么更生硬,要么更冗长;而机器则力求做到措辞上的平衡。
顺便一提,这篇文章的大多数内容是由AI生成的。
上一篇:跨界互联 数聚香港 PreIN出海考察团首期活动圆满成功
下一篇:没有了









