百度新突破：AI同声传译系统STACL，可预测，低延迟

2018年10月24日由浅浅发表 957644 0

百度开发了新的AI系统，名为同声传译和预期与可控延迟（STACL），百度声称这代表了自然语言处理的重大突破。

与大多数AI翻译系统不同，STACL能够在演讲者讲话后几秒钟开始翻译，并在句子结束后几秒钟内完成翻译。它与连续解释相反，翻译器等待，直到说话者暂停开始翻译。

百度新突破：AI同声传译系统STACL，可预测，低延迟

百度表示，它通过在人工翻译之后对系统进行建模来应对挑战。STACL直接预测翻译中的目标语言单词，并将翻译和预期融合到单个模型中，“wait-k”，即总是翻译说话者语音后面的k个单词以允许预测上下文。系统经过训练，使用源句子的可用前缀来决定翻译中的下一个单词。

百度新突破：AI同声传译系统STACL，可预测，低延迟

以下是百度解释的方式：

在例子Bùshí Zǒngtǒng zài Mòsīkē（布什总统在莫斯科）和英译“President Bush”中，ķ=2，2个词落后于中文，我们的系统准确地预测，下一个翻译的单词必须是“会见”，因为布什很可能在莫斯科会见某人（例如普京），早在中文动词出现之前。

STACL的另一个关键优势是延迟灵活性。它可以设置得更低或更高，取决于两种语言的相关程度，例如，法语和西班牙语较低，英语和中文等远程语言较高，或英语和德语等不同单词顺序的语言较高。

“翻译质量更常见的是低延迟要求，但与传统的全句（例如非同步）翻译相比，我们的系统在质量上只有很小的损失，”百度写道，“考虑到低延迟要求，我们将继续提高翻译质量。”

那么STACL与人类口译员相比如何呢？根据百度的说法，它比传统的全句翻译少了3.4个BLEU点（“双语评估替补”的缩写，是评估机器翻译文本的标准指标）。在中英文同声传译中，AI系统落后于中文语音大约三秒钟，翻译质量比全句（非同步）翻译低3.4个BLEU点。

“即使有最新进展，我们也完全了解同步机器翻译系统的诸多限制，”百度写道，“STACL的发布并不是要取代人类口译员，他们将在未来许多年继续依赖他们的专业服务，而是让同步翻译更容易获得。”

STACL推进了该公司早期的语音识别工作，更广泛地说，是AI相关工作。在2016年和2017年，百度推出SwiftScribe，一个Web应用程序搭载了DeepSpeech平台，TalkType分别听写为中心的Android键盘。最近，在7月，它推出了定制设计的AI芯片，昆仑AI，用于边缘和云计算，以及百度脑3.0，一套110种AI服务，从自然语言处理到计算机视觉。

百度不是唯一一家在AI翻译和转录方面掀起波澜的公司。微软在3月展示了一个系统，该系统在将新闻从中文翻译成英文时与人类表现相匹配。Facebook已经开始利用无监督的机器学习将内容从一种语言翻译成另一种语言。多伦多大学的研究人员开发了一种离线语音识别模型，其准确率为97％。

论文：arxiv.org/abs/1810.08398

标签：

语音识别百度

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇滑铁卢大学与DarwinAI开发离线语音模型，准确率可达97%

下一篇 SoundHound与本田合作，加速开发AI语音助手

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）