研究发现ChatGPT和Bard正走向“模型崩溃”
2023年06月21日 由 Camellia 发表
553322
0
由于大量的数据副本,ChatGPT等大型语言模型中存在不可逆的缺陷、退化和模型崩溃:这是定时炸弹。
最近的一篇研究论文题为《递归的诅咒:训练基于生成数据的模型使其遗忘》,发现在训练中使用模型生成的内容会导致结果模型中出现不可逆转的缺陷,其中原始内容分布的尾部消失。
研究人员Ilia Shumailov,Zakhar Shumaylov,Yiren Zhao,Yarin Gal,Nicolas Papernot,RossAnderson“将这种效应称为模型崩溃,并表明它可以发生在变分自动编码器,高斯混合模型和LLM中。
他们表示:“我们在现有的所有生成模型中,从理论上揭示了这种现象的普遍性。”
研究人员证明,如果我们要维持从网络上抓取的大规模数据中训练的好处,就必须认真对待模型崩溃。
他们指出:“事实上,在从网络爬取的数据中,由LLM生成的内容存在时,对于与系统的真实人类互动所收集的数据价值将越来越重要。”
实际上,LLM(大型语言模型)和生成式人工智能可能是“退化型”人工智能的伪装。
最近,自从OpenAI的ChatGPT和谷歌的Bard等大型语言模型(LLM)公开发布以来,人们普遍认为这些系统会不断取得进步。
然而,对LLM等系统内置模型崩溃的发现否定了这一看法,并引发了专家对系统本身潜在不可避免的退化问题的讨论。
以下是潜在LLM崩溃机制的概述:
扩展训练数据和参数
目前的LLM,包括ChatGPT和其他大型语言模型,都依赖于可公开访问的互联网数据进行培训。
这些数据来源于日常消费、写作、推特、评论和审查信息的个人,让我们深入了解其来源。
有两种广泛接受的方法来提高LLM模型的效率。
第一种是增加用于训练的数据量,而第二种是增加模型考虑的参数数量。
参数表示与模型学习的主题相关的唯一数据点或特征。
传统上,模型使用各种形式的人类生成的数据,包括音频、视频、图像和文本。
该数据语料库展示了:
- 真实的语义
- 多样的事件范围
- 多样性
LLM具备丰富的细微差别和微妙之处,使模型能够开发出真实的数据分布,并且不仅可以预测最常见的类别,还可以预测不常见的类别。
LLM崩溃:机器生成数据的威胁
研究指出,机器生成的数据(例如LLM撰写的文章或由人工智能生成的图像)对于上述“多样性”构成了重大威胁。这个问题比最初看起来的要复杂,并且会随着时间的推移而逐渐积累。
研究人员强调,这个问题尤其在遵循持续学习过程的模型中普遍存在,并产生重大影响。
与传统的机器学习不同,传续学习是根据顺序提供的动态数据进行调整。
无论是基于任务的方法还是无任务的方法,数据分布都会逐渐变化,没有明确的任务边界。
模型崩溃和“数据污染”
模型崩溃是影响生成模型代际的退化过程。这是一类新发现的LLM问题。
当生成的数据污染了后续模型的训练集时,会导致对现实的错误认知。
广义上讲,数据污染是指任何导致数据不准确反映现实的因素。
研究论文利用了模拟LLM数学模型的可管理模型,以展示这个问题在LLM中的严重性和持久性。
保持真实性和规范数据使用
正如论文所建议的那样,这个问题的解决方案主要包括通过额外的合作者审查来保持内容的真实性,并确保实现合理的数据分布。
在训练LLM时,规范机器生成数据的使用也非常重要。
考虑到从头开始训练LLM所带来的巨大成本,大多数组织都依赖于预训练模型作为起点。
随着生命科学、供应链管理和内容行业等关键行业越来越多地采用LLM来处理日常任务和推荐,LLM开发者在保持现实性的同时需要不断改进模型。
来源:https://aimagazine.com/articles/research-finds-chatgpt-headed-for-model-collapse