SLOP投喂下的Brain Rot

发布时间:2026-01-12 22:41  浏览量:1

近日收到一篇学生写的研究报告,充斥着无中生有的条约或条约条款,语焉不详的条约义务,将贸易协定和案例用来解决投资争议的张冠李戴,指代不明,整体上流于表面,洋洋洒洒有时又没有实质内容,很像一篇高AI含量的低质作品。这让我想到了韦氏词典(Merriam-Webster)的2025年度词汇Slop。

2025年12月14日,韦氏词典宣布它的2025年度词汇是Slop。Slop原本是“泔水”或“倒掉的食物残渣”,韦氏词典用它形容“通过AI大量生产的低质量数字内容”。

AI生成的低质量数字内容已经泛滥成灾。SEO公司使用名为Surfer的AI检测工具做出的Graphite 报告分析了2020年1月至2025年5月间发布的65000篇英文文章,将内容中不少于50%由大语言模型生成的文章认定为AI文章,发现AI文章在ChatGPT发布后迅速激增,从2022年末的约10%发展到2024年的超过40%,随后增速趋于平缓,2024年11月AI文章达到峰值后,新发布的AI与人类创作内容基本各占一半,截至今年5月新的AI文章的占比为 52%。尽管检测显示,Surfer将人类文章误判为AI的比例为4.2%,而将AI文章误判为人类的比例仅0.6%,而且研究人员使用的Common Crawl数据集正是AI公司训练大语言模型所利用的数据,许多付费网站因此已阻止Common Crawl索引页面,导致一些由人类创作的文章未被 Graphite 统计在内,报告所分析出的AI文章比例仍然触目惊心,毕竟“聪明”的AI创作才几年。

然而,数量还不是最大的问题,AI创作也在影响AI本身。2024年《牛津词典》的年度词汇是Brain Rot(脑腐),形容人精神或智力状态的恶化,特别是因为过度吸收琐碎或无挑战性的内容所引起的衰退。话说“Brain rot”并不是一个新词,它最早出现在梭罗的《瓦尔登湖》里,其中写到,当英格兰努力防止马铃薯腐烂时,难道就没有人努力防止“大脑腐烂”吗?梭罗批判的是当时社会贬低复杂思维,偏好简单内容的趋势。在新的时代,《牛津词典》用Brain rot指人们因沉迷短视频等快节奏的网络内容而导致的精神疲劳和脑力衰退。根据官方的统计,2024年Brain rot这个词在《牛津词典》语料库的使用率,增加了230%以上。

短视频是精神鸦片吗?

一文曾写道,刷短视频成瘾与认知能力呈现出中等程度的负相关,受影响最明显的是注意力和自我控制能力,而向AI投喂低质量内容,也会直接影响AI的智力水平乃至精神状态,Brain rot也适用于AI。人类和AI面对垃圾内容时,能力是平行退化的。

德州大学奥斯汀分校的汪张扬教授团队做了一个实验。他们把X平台上那些简短、刺激、互动量高但毫无信息量的“高参与度垃圾”,以及阴谋论、标题党等“低质量内容”,喂给主流大模型,结果让人震惊。以Llama3 8B模型为例,当训练数据里垃圾数据的比例从0%增加到100%时,它在推理任务上的表现从74.9%直接跌到57.2%;更严重的是长文本理解能力的衰退,在“大海捞针”测试中,准确率从95.6%暴跌到35.6%。甚至AI的人格都因此发生变化。大量投喂垃圾数据之后,AI的自恋倾向、精神病倾向翻了一倍多,亲和力却在下降。研究团队还发现了AI“脑腐”的核心机制——“思维跳跃”。正常的AI会先分析、再计划、再推理;但“脑腐”后的AI会跳过这些步骤直接给出答案。这不就是人类狂刷无脑短视频几小时后的状态吗?不假思索地回答问题,或者想到一半就放弃,失去了深度思考的能力,甚至什么都不想干,什么都记不住,只想永远留在不断出现的短视频强刺激所带来的“快乐”中。

低质量内容历史上曾多次出现。1978年,世界上第一封垃圾邮件诞生,催生了价值数十亿美元的反垃圾邮件产业。2000年代,互联网上又出现内容农场,用低成本、关键词堆砌的垃圾文章污染搜索引擎,谷歌通过升级算法,干掉了内容农场,让搜索变得更加专业化。尽管有多次成功的经验,但这次AI引发的内容危机仍然值得我们特别警惕。

一是AI生产内容的成本几乎为零,这导致slop的生产速度和规模是过去任何时代都无法比拟的。

二是这次污染的是AI本身。由牛津大学副教授Yarin Gal课题组与剑桥大学、帝国理工学院、多伦多大学的研究人员合作完成并发表在《自然》(Nature)上的论文AI models collapse when trained on recursively generated data(《当使用递归生成的数据训练时,AI模型会发生崩溃》)中提出了“模型崩溃”的概念,意指如果长期用AI生成的数据来训练,AI会越来越笨,因为AI模型在生成数据时,无法完美复现真实数据的全部分布,总是会丢失或扭曲原始数据中的细节,特别是不常见的“尾部”信息,当用这些有缺陷的数据反复训练新模型时,误差会像滚雪球一样累积放大。此前低质量内容危机污染的是用户体验,而这一次污染的是AI的食物,是整个信息生态的土壤,而被污染的土壤上长出来的,就只能是毒草。英国《卫报》曾报道,亚马逊上82%的“草药疗法”书籍都是AI写的,这可直接关系到读者的健康。

在这样的危机下,真实、有价值、有“人味儿”的内容,正在变得越来越稀缺,也越来越有价值。大企业纷纷在开发和售卖依据其自身的或专业的语料库来开发AI模型或应用,个体也要学会主导AI的使用过程并辨别AI生成内容的优劣,以我为主来学习和创作。