大型语言模型并不总是越大越好

2023年06月02日由 Samoyed 发表 721845 0

关于应该让语言模型变大还是变小的争论永无止境。但是现在应该是停止这种争论的时候了。

对于大型语言模型，一直存在这样的概念——模型越大，它的性能就越好。这使得许多公司夸耀他们的模型参数的数量。GPT-3有1750亿个参数，为了与之竞争，谷歌推出了PaLM，并将其扩展到5400亿个参数。

1997年与IBM超级计算机比赛的著名国际象棋冠军Garry Kasparov说:“正如一位谷歌翻译工程师所说，‘当你从1万个训练样本增加到100亿个训练样本时，一切都开始奏效了。’数据胜过一切。”从那时起，人们就认为增大模型，就可以带来性能的提高，但随之而来的代价是计算成本的增加。

最近又出现了另一个转折。上个月，ChatGPT的创始人Sam Altman说：“我认为我们正处于这些巨型模型时代的末期，我们将以其他方式让它们变得更好。”他补充说，人们过于关注语言模型的参数数量，现在应该把重点转移到如何让模型表现得更好上，即使这意味着减小它们的体量。

同时，最近Altman也表示，做大模型并不是一个坏主意。他反复强调，OpenAI可以使模型比现有模型大一百万倍，这也将提高性能，但这样做没有意义，因为它可能不可持续。

越小越好

引用苏格拉底的话:“真正重要的不是事物的大小，而是其质量。因为真正的价值在于物质的本质，而不是它的体积。”这句话对大型语言模型是否也同样适用呢？

如果我们比较GPT-3和PaLM的性能，差别并不大。考虑到炒作，人们甚至可以说GPT-3甚至比PaLM更好。越来越多地，我们也见证了像LLaMa这样更小的语言模型，它最大只有650亿个参数。Meta还发布了只有70亿个参数的模型，这些模型在许多用例中表现得比大型模型要好得多。

此外，为了替代LLaMa，技术创新研究所（Technology Innovation Institute）发布了Falcon，它还有允许商业使用的特殊许可，这是LLaMa不允许的。这个模型有400亿个参数，已经在Hugging Face的开放大型语言模型排行榜（ Open LLM Leaderboard）上名列前茅。研究人员表示，Falcon在各种基准测试中都优于LLaMa、StableLM和MPT。

Meta并没有止步于LLaMa。Meta AI的新型号LIMA是基于LLaMa 65B构建的，在各种性能测试中表现优于GPT-4和Bard。有趣的是，根据这篇论文，即使只有1000个经过精心筛选的提示和响应，LLaMa的70亿参数版本仍能表现出色。很明显，正如论文所说，少即是多。

大型语言模型领域还有另一种算法可以让更小的模型比更大的模型表现得更好。麻省理工学院CSAIL的研究人员在没有人工生成标签的情况下，自我训练了一个3.5亿个参数蕴涵模型。根据该论文，该模型能够击败GPT-3、LaMDA和FLAN等监督语言模型。

这些研究人员还设计了一种名为SimPLE（简单伪标签编辑）的技术，这是一种自我训练LLM模型的技术。研究人员发现，自我训练可以通过教会模型通过自己的预测来学习，从而提高模型的能力。有了SimPLE，研究人员能够在第一轮训练中通过审查和修改伪标签进一步推进这一过程。

论文的主要研究员和合著者James Glass表示：“虽然大型语言模型领域正在经历快速而戏剧性的变化，但这项研究表明，与大致相同规模的模型，甚至更大的语言模型相比，相对紧凑的语言模型可以在基准理解任务上表现出更好的性能。”

开发者共赢

“这有可能重塑人工智能和机器学习的格局，为语言建模提供更具可扩展性、可信度和成本效益的解决方案，”该论文的第一作者Honggyin Luo说。“通过证明较小的模型可以与较大的模型在语言理解方面处于同一水平，这项工作为更可持续和隐私保护的人工智能技术铺平了道路。

很明显，随着生成式人工智能技术的快速发展，较小的模型能够执行与大型模型相同的任务。这一切都始于开源LLaMa模型，开发人员可以通过该模型在自己的系统上研究和构建更好的人工智能模型。现在，这个领域和选项不断扩大，而不是模型。

在人工智能领域，人们一直在推动建立开源开发者生态系统。Meta推出了LLaMa，微软称每个人都是开发者，谷歌认为开源是人工智能竞赛的真正赢家。有了这些不需要大量计算资源的开源小型模型，生成式人工智能领域将变得更加民主化。

这就是我们的目标:每个人都应该能够构建自己的ChatGPT并在自己的设备上运行它。为此，我们需要更小、开源和更高效的模型。

由于这些小模型的性能优于大型模型，因此很快就可以在没有互联网的单个设备上运行类似 GPT 的模型。未来将正如Meta AI首席执行官Yann LeCun所设想的那样——多个较小的模型协同工作，以获得更好的性能，他称之为世界模型。这也是Altman所预测和希望的。我们正朝着正确的方向前进。

来源：https://analyticsindiamag.com/bigger-is-not-always-better/

标签：

学习人工智能大型语言模型 LLaMa

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇人工智能生成的内容可以被检测到吗?

下一篇人工智能可以有创造力，但不能真正地进行创作

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）