一项研究发现,在人工智能生成的文本上训练人工智能(AI)模型,很快会导致模型产生大量废话。这种相互蚕食的现象被称为模型崩溃,可能会阻碍大型语言模型(llm)的改进,因为它们耗尽了人类衍生的训练数据,而越来越多的人工智能生成的文本遍布互联网。
“我们要传达的信息是,我们必须非常小心我们的训练数据中最终出现的内容,”合著者、英国剑桥大学人工智能研究员Zakhar Shumaylov说。否则,“事情总是会出错,这是可以证明的”。他说,“该团队通过数学分析表明,模型崩溃问题可能是普遍存在的,它影响到使用未经整理的数据的所有大小的语言模型,以及简单的图像生成器和其他类型的人工智能。
研究人员首先使用法学硕士来创建类似维基百科的条目,然后在其前身产生的文本上训练模型的新迭代。由于人工智能生成的信息——被称为合成数据——污染了训练集,模型的输出变成了乱码。该模型的第九次迭代完成了一篇维基百科式的关于英国教堂塔楼的文章,其中有一篇关于长耳野兔尾巴的多种颜色的论文。
更微妙的是,这项发表在7月24日《自然》杂志上的研究表明,即使在完全崩溃之前,从人工智能衍生文本中学习,也会导致模型忘记数据集中最不经常提到的信息,因为它们的输出变得更加均匀。
该研究的合著者Ilia Shumailov说,在制作公平代表所有群体的人工智能模型时,这是一个令人担忧的问题,因为低概率事件通常与边缘化群体有关。Ilia Shumailov在英国牛津大学参与了这个项目。
“这是一篇很棒的论文,”纽约市纽约大学的计算机科学家Julia Kempe说。到目前为止,许多科技公司已经通过向它们提供越来越多的数据来改进它们的模型。但随着人工制作的内容越来越少,他们希望利用合成数据来不断改进。她说,这项研究的一个版本于2023年5月首次出现在arXiv预印本服务器上,它刺激了人工智能社区试图找到解决这个问题的方法。“这是一次战斗的召唤。”
该研究的作者在维基百科文章上训练了他们的大型语言模型,并在前一个版本产生的文本上训练了该模型的连续几代。当被提示从维基百科关于萨默塞特郡一级保护建筑的条目中摘录一段文字时,这些模型输出了以下文本。该模型的第一个输出(第0代)包含一些错误,但第9代的输出完全是胡言乱语。
为了证明模型崩溃,研究人员采用了一个预训练的LLM,并通过使用基于维基百科条目的数据集对其进行训练来对其进行微调。然后,他们要求生成的模型生成自己的维基百科风格的文章。为了训练下一代模型,他们从同样的预训练法学硕士开始,但对其前辈创建的文章进行了微调。他们给每个模型一个开头段落,并要求它预测接下来的几个句子,然后将输出与在真实数据上训练的模型的输出进行比较,以此来判断每个模型的表现。Shumaylov说,研究小组预计会出现错误,但惊讶地发现“事情很快就出错了”。
崩溃的发生是因为每个模型必须只从它所训练的数据中采样。这意味着原始数据中不常见的单词不太可能被复制,而常见的单词被反刍的可能性被提高了。完全崩溃最终会发生,因为每个模型不是从现实中学习,而是从以前的模型对现实的预测中学习,每次迭代都会放大误差。Shumailov说:“随着时间的推移,这些错误最终会彼此叠加,直到模型基本上只学习错误而不学习其他错误。”
加州大学伯克利分校(University of California, Berkeley)的计算机科学家哈尼·法里德(Hany Farid)说,这个问题类似于一个物种的近亲繁殖。法里德说:“如果一个物种与自己的后代近亲繁殖,而没有使它们的基因库多样化,就会导致这个物种的灭绝。”他的研究已经在图像模型中证明了同样的效果,产生了对现实的怪异扭曲。
Shumailov说,模式崩溃并不意味着法学硕士将停止工作,但制造它们的成本将增加。
肯普说,随着网络上合成数据的积累,认为模型训练的数据越多越好的缩放定律可能会被打破——因为训练数据将失去人类生成内容所带来的丰富性和多样性。
在训练中使用多少合成数据很重要。当Shumailov和他的团队在10%的真实数据和合成数据上对每个模型进行微调时,崩溃发生得更慢。加州斯坦福大学的人工智能研究员Matthias Gerstgrasser说,模型崩溃还没有在“野外”看到。格斯特格拉瑟团队的一项研究发现,当合成数据不取代真实数据,而是与真实数据一起积累时,灾难性的模型崩溃就不太可能发生。目前还不清楚,当一个模型使用另一个人工智能(而不是自己的人工智能)产生的数据进行训练时,会发生什么。
Shumailov说,开发人员可能需要找到方法,比如水印,将人工智能生成的数据与真实数据分开,这将需要大型科技公司前所未有的协调。社会可能需要找到激励人类创作者继续创作内容的方法。肯普说,过滤也可能变得很重要——例如,人类可以在人工智能生成的文本返回到数据池之前对其进行管理。她说:“我们的研究表明,如果你能适当地修剪头发,这种现象可以部分或完全避免。”