谷歌发布最新SGD新语料库，帮助智能助手更加智能

2019年10月29日由 TGS 发表 927839 0

谷歌的研究人员在最近的一项研究中，试图在不用额外数据和再培训的情况下，让类似谷歌Assistant这样的人工智能助手，可以更好地支持新服务。该研究引入了一种方法，能够在没有领域特定参数的情况下跨服务使用模型，此外，该团队还发布了一个SGD语料库并对外声称，这是世界上最大的、面向任务对话的公开汇编。

软件工程师Abhinav Rastogi和谷歌研究工程负责人Pranav Khaitan在博客中写道：“今天的虚拟助理可以帮助用户完成各种各样的任务，包括寻找航班、搜索附近的事件或电影、预订东西或者是服务、从网络上获取信息等等。但是，尽管取得了巨大的进步，可适应性挑战却还是在最先进的模型中被时常忽视。具体原因是，缺乏合适的数据集来匹配虚拟助理所面临的规模和复杂性。”

为此，SGD语料库包含了18000多个人与虚拟助理之间的带注释对话，涉及与17个领域的服务交互。对于大多数领域，数据集包含几个不同的API，其中许多API具有重叠的功能，但是不同接口分别反映了典型的真实场景。评估集包含了训练集中没有的服务，主要用于量化模型对API变化或新API添加的健壮性。

至于前面提到的模式指导方法，它可以利用每个服务或API及其相关属性的自然语言描述来学习分布式语义表示，该语义表示作为对话系统的额外输入，能够作为单个模型实现。

该团队表示，统一模型是谷歌开源对话状态跟踪模型的核心，它促进了不同服务中相似概念之间的公共知识表示，使得对培训数据中没有的新服务进行操作成为了可能。Rastogi和Khaitan在文章的最后写道：“我们相信，这个语料库数据集将成为建立大规模对话模型的良好基准，所以，我们非常兴奋，并期待着，研究界将以各种创新的方式，利用它来推进对话技术。”

数据集是AI模型训练的必要因素之一，它能为模型提供极为丰富的知识以及经验，数据集越大，所蕴含的信息就越多，对模型的帮助也就越多。谷歌公开表示，新模型以及新数据集——SGD语料库的发布，能够帮助自然语言系统建模技术向前迈进一大步。

标签：

行业谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇机器人领域的波澜起伏

下一篇印度技术学院为AI、ML创建应用程序以解决工程问题

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）