聊天机器人可自行提取训练数据，以提高会话能力

2019年01月18日由浅浅发表 698844 0

与聊天机器人会话仍然是当前的一大挑战，大多数人对于聊天机器人的注意停留不超过15分钟，但这并不能减少机器人的应用，事实上，Gartner预测，到2020年，聊天机器人将为所有客户服务互动提供85％的支持。

来自Facebook的AI研究和斯坦福大学的科学家们在发表的一篇论文“Learning from Dialogue after Deployment: Feed Yourself, Chatbot!”中，描述了一种聊天机器人，它可以通过从对话中提取训练数据来自我提高。

论文作者解释说：“当谈话似乎进展顺利时，用户的回答将成为模仿的新训练范例。并且当智能体认为它犯了错误时，它会要求反馈。学习预测将给出的反馈进一步改善了聊天机器人的对话能力。这些新的例子改善了智能体的对话能力，同时仅使用来自用户的自然响应，不需要特殊结构，数字反馈或额外的人为干预。”

研究人员认为，这样一个AI系统可以不受人类监督的影响而不断自适应。唯一的问题是，让聊天机器人用自己的对话进行训练，可能会加剧错误，导致荒谬的对话出现。

在研究人员的案例中，解决方案是“令人满意”，也就是说，聊天伙伴对机器人响应的满意度。他们收集了一份“满意”数据集，让人与AI闲聊，并为每个回复的质量指定1到5之间的等级，用于教导系统预测“满意”和“不满意”。

当聊天机器人和人类交流时，前者同时接受两项任务的训练：对话（接下来会说什么）和反馈（其回复的一致性）。对于每一轮，它都要考虑之前的交流，然后用这些交流来生成下一次的回复，以及从0到1的满意分数。当满意度达到一定阈值时，利用前一情境和人的反应提取训练数据。但是如果分数很低，机器人就会用一个问题请求反馈，并使用这个反馈为反馈任务创建一个新的示例。

例如，向聊天机器人问“法国每年这个时候的天气怎么样？”，其中包括“非常美味”等不合理的回答。大多数人都可能跟进：“你在说什么？”从他们的预期，机器人可能会推断出他们不满意，并且正如其设计的那样，它们进行纠正：“哦，我搞砸了，我应该怎么回答？”。一旦给它提供正确答案“也许你应该告诉我天气很冷”，它将提取训练样例以防止它在将来犯同样的错误。

在研究过程中，聊天机器人建立在Transformer上，一个能够在语言翻译任务中胜过最先进模型的神经架构，用来自PersonaChat的公开数据集，超过13万个人与人对话示例进行训练。在测试中，他们发现，在小型训练集中，学习曲线最陡峭，与基线相比，总体准确度提高了31％，性能最佳的模型分别在对话任务和反馈任务中实现了46.3％的准确率和68.4％的准确率。

至于聊天机器人预测用户满意度的能力，它明显优于以前的方法，即使只有1000个训练样例。

研究人员写道：“当人类满意时，通过模仿人类的反应来提高对话能力，或者当他们不满意时，通过寻求反馈来提高对话能力，将其预测为辅助任务。结果证明，对用户满意度进行分类是一项很重要的自学习任务，明显优于模型不确定性的方法。”

论文中描述的数据集，模型和训练代码将通过Facebook的ParlAI平台提供。

论文：

arxiv.org/pdf/1901.05415.pdf

标签：

机器人 Facebook 斯坦福大学聊天机器人

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇训练机器人抓握物体能力，速度与成功率大幅提高

下一篇 AI系统教机器人如何在荒野小径上航行

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）