研究人员展示了一种技术,可以用来探测模型了解新主题的信息。
麻省理工学院新闻处的Adam Zewe报道
发布日期:2024年3月25日
新闻咨询
标题:来自麻省理工学院和其他地方的研究人员发现,复杂的大型语言机器学习模型在响应用户提示时使用一个简单的机制来检索存储的知识。研究人员可以利用这些简单机制来查看模型了解不同主题的信息,也可能纠正它存储的错误信息。
大型语言模型,如那些为流行的人工智能聊天机器人ChatGPT提供动力的模型,是令人难以置信的复杂。尽管这些模型正在被用作许多领域的工具,如客户支持、代码生成和语言翻译,科学家们仍然没有完全理解它们是如何工作的。
为了更好地理解底层的工作原理,麻省理工学院和其他地方的研究人员研究了这些庞大的机器学习模型检索存储知识时的工作机制。
他们发现了一个惊人的结果:大型语言模型(LLMs)通常使用一个非常简单的线性函数来恢复和解码存储的事实。此外,模型对于类似类型的事实使用相同的解码函数。线性函数是只有两个变量和没有指数的方程式,捕捉两个变量之间的直线关系。
研究人员展示了,通过确定不同事实的线性函数,他们可以探测模型了解新主题的信息,以及知识在模型内部的存储位置。
研究人员开发了一种估算这些简单函数的技术,发现即使模型回答一个提示不正确,它通常也存储了正确的信息。未来,科学家可以利用这种方法找到并纠正模型内部的虚假信息,这可以减少模型有时给出不正确或无意义回答的倾向。
“即使这些模型是非常复杂的、训练有素的非线性函数,并且很难理解,它们有时也有非常简单的内部运作机制。这是其中的一个实例,”电气工程与计算机科学(EECS)研究生和论文共同第一作者Evan Hernandez说。
Hernandez与共同第一作者、东北大学计算机科学研究生Arnab Sharma;他的导师、EECS副教授兼计算机科学与人工智能实验室(CSAIL)成员Jacob Andreas;东北大学计算机科学助理教授兼高级作者David Bau以及麻省理工学院、哈佛大学和以色列理工学院的其他人合作撰写了这篇论文。这项研究将在国际学习表征会议上发表。
在未来的工作中,Hernandez及其合作者希望更好地了解在事实不是线性存储的情况下会发生什么。他们还希望在较大的模型上进行实验,并研究线性解码函数的精确度。
这项研究部分得到了Open Philanthropy、以色列科学基金会和Azrieli基金会早期职业教职员工奖的支持。
文章来源:https://news.mit.edu/2024/large-language-models-use-surprisingly-simple-mechanism-retrieve-stored-knowledge-0325