众多开源聊天机器人与ChatGPT相去甚远
2023年07月04日 由 Samoyed 发表
671443
0
研究人员只是为了抢占新闻头条而夸夸其谈,最终却一无所获。
每天我们都能看到一个新的聊天机器人——要么是由大型科技公司或最近获得投资的公司开发的,要么来自开源社区。在复制OpenAI ChatGPT的竞赛中,开发者们走了很多捷径。目前最常见的方法是用ChatGPT生成的数据来训练聊天机器人。
最新的聊天机器人声称优于ChatGPT。OpenChat是一个被吹捧为去中心化的开源聊天工具,最近在Vicuna GPT-4基准测试中,与ChatGPT相比,它的得分达到了105.7%。这是一个巨大的壮举,但仔细观察就会发现并非如此。
这是第二个声称在相同的Vicuna基准测试中比ChatGPT表现更好的模型。此前,同样使用GPT-4数据训练的130亿个参数模型Orca声称其表现优于OpenAI的模型。
还是老样子
首先,OpenChat是建立在LLaMA-13B之上的。这意味着该模型还不能用于商业用途,因为Meta的LLaMA仅用于研究目的,而不能用于商业用途。此外,在吹嘘模型的基准测试之前,还应该考虑另一件事——用于微调的数据集。这个基于LLaMA的模型是在ShareGPT(一个在互联网上共享ChatGPT和GPT-4生成与输出中心)上提供的9万个对话中的6千个对话进行训练的。
当谈到在Vicuna GPT-4基准上进行评估和基准测试时,它只测试风格而不是模型产生的信息。此外,它是一个基于GPT的评估指标,这意味着任何在ChatGPT或GPT-4数据上训练的模型在接受GPT测试时都会得到更高的评价,这使得基准测试不值得信赖。
最近,Hugging Face在其他开源模型中也发现了类似的问题。Hugging Face的创始人声称,模型论文上的评估基准与模型在“Hugging Face”基准上的评估基准之间存在很大差异。Securly软件工程副总裁David Hinkle指出,最近许多声称性能优于LLaMA或GPT-4的模型在Open LLM排行榜上无处可寻。
夸夸其谈,收效甚微
简而言之,在ChatGPT数据上训练的模型在对基于同一模型的度量进行基准测试时表现优于相同的模型,这是一个很大的主张。打个比方,这就像一个学生参加考试,重写答案以匹配老师提供的正确答案,然后老师再匹配答案。显然,它的表现会更好。
来自Atlas Nomic AI的Andriy Mulyar指出,这都是虚假的炒作。人们使用ChatGPT生成的输出来模仿ChatGPT是一条错误的道路。此外,这些模型唯一模仿的是ChatGPT的风格,使聊天机器人的质量在个别任务上听起来更好。如果考虑到所有类型的一般任务进行全面评估,ChatGPT一个比其他任何助手都好得多。
有趣的是,在受到这些之后,研究人员已经意识到在Vicuna GPT-4 基准上评估模型存在一些问题。因此,他们已经过渡到MT-bench,以测试OpenChat的性能。在这种情况下,该模型的性能明显低于基于GPT-3.5的ChatGPT,这描述了评估基准之间的差异。
Twitter上的用户指出,该模型比ChatGPT更容易产生幻觉,而且不仅仅是用于模型的评估指标。“我刚试过这种模式,一点都不好。在发布这篇文章之前,你试过这个模型吗?”一位推特用户说。
感谢GPT
无论衡量标准和基准如何,对于基于大型语言模型的聊天机器人来说,高质量的数据创造奇迹。为此,唯一应该感谢的模型是ChatGPT,因为当今的每个模型都是根据聊天机器人生成的合成数据进行训练的。没有人拥有OpenAI为GPT开发的秘密武器。最近,OpenAI被问及开源是否能够复制该公司通过Vicuna或LLaMA建立的东西,Ilya Sutskever对此给出了否定的回答。
“这个新模型在基准测试中胜过所有其他模型”的趋势已经持续了一段时间,但是当用与其他模型相同的指标进行评估时,“新模型”表现不佳。此外,尽管开源社区一直在尝试复制ChatGPT,但在ChatGPT的数据上进行培训可能不是最好的方法,因为OpenAI已经因为在互联网数据上进行培训而受到了几起诉讼。
来源:https://analyticsindiamag.com/open-source-chatbots-are-nowhere-close-to-chatgpt/