Nature：不用开口说话，AI直接将大脑信号转译成言语

2019年04月25日由深深深海发表 853706 0

成千上万的人因事故或疾病导致言语能力丧失，与他人交流陷入困难。为了给不能说话的人提供便利，神经科学家设计了一种可以将大脑信号转换为语音的系统，每分钟可产生约150个字，语速接近自然水平。

这是一种可以解码大脑意图的系统，并将它们转化为大多数人可以理解的语言，而无需牵动肌肉，与之相对，霍金通过脸颊上的肌肉键入键盘字符，计算机将其合成为语音。

但这项技术还不够准确，无法推广到实验室外，尽管它可以合成大多数可理解的句子。研究者在“Nature”上发表了这项研究，描述了该语音解码设备。

它可以破译大脑的运动指令，在说话时引导声音运动——轻拍舌头、抿紧嘴唇，并生成可理解的句子。

实验研究

专家表示，这项新工作是对原则的证明，预示了经过进一步实验和改进后可能实现的目标。该系统在正常说话的人身上进行了测试，它还没有在神经系统疾病或损伤等可能导致解码困难的人身上进行测试。

在新的实验中，加州大学旧金山分校和加州大学伯克利分校的科学家招募了五名住院患者，医院正在对他们进行癫痫手术评估。

五名患者同意测试虚拟语音发生器。每个植入了一个或两个电极阵列：印章大小的垫，包含数百个微小的电极，放置在大脑表面。

当每个参与者背诵数百个句子时，电极记录了运动皮层中神经元的发射模式。研究人员将这些模式与患者在自然语言中发生的嘴唇，舌头，喉部和下颌的微妙运动联系起来。然后团队将这些动作翻译成口语句子。

然后要求母语为英语的人听取句子来测试虚拟语音的流畅性。该研究发现，虚拟系统生成的内容多达70％是可理解的。

加州大学旧金山分校的神经外科教授Edward Chang表示，“我们发现，通过解码大脑活动的指导衔接，我们可以模拟出比合成语音更准确、更自然的语音，而合成语音是基于从大脑中提取声音表征的。”

以前基于种植体的通信系统每分钟大约产生8个字。新系统每分钟产生约150个字，语速自然。

研究人员还发现，基于一个人大脑活动的合成语音系统可以被其他人使用和调整。

在另一项实验中，研究人员要求一位参与者大声朗读句子，然后通过移动嘴且不发出声音来模仿相同的句子。Chang说，在这次测试中合成的句子质量低于用听觉语音创建的句子，但结果仍然很有价值。

未来潜力

该团队计划进入临床试验以进一步测试该系统。最大的临床挑战可能是寻找合适的患者，一般来说，中风使人的语言能力丧失，也常常损害大脑中支持语言表达的区域。

加州圣地亚哥州立大学的神经科学家StephanieRiès表示，通过将大脑活动映射到声道运动并将其转化为声音而创建的语音，比通过将大脑活动直接映射到声音所产生的语音更容易理解。

但西雅图华盛顿大学的神经工程师Amy Orsborn表示，尚不清楚新的语音解码器是否可以与人们只能思考的词语配合使用。“这篇文章非常出色地证明了这适用于模仿言语，但是当有人不动嘴时，这怎么会起作用呢？”

伊利诺伊州芝加哥西北大学的神经学家Marc Slutzky对此表示赞同并称解码器的性能仍需要改进。他指出，听众通过从一组选择中选择单词来识别合成语音，随着选择数量的增加，人们在理解这些词语时会遇到更多麻烦。这项研究是非常重要的起点，但在合成语音易于理解之前还有很长的路要走。

标签：

行业 Natuire

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌开源AI图像分割模型，用Cloud TPU快速准确地进行图像分割

下一篇 Appier:你是否需要一位数据科学家

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）