Common Voice开源语音识别数据集项目范围再扩大,开始建立多语言数据集
2018年06月08日 由 浅浅 发表
438555
0
Common Voice项目旨在创建开源语音识别数据集,Mozilla宣布它正在扩大此众包项目,以加入更多语言。
该技术组织于去年6月首次发布Common Voice,邀请来自世界各地的志愿者通过网络和移动应用来记录文本片段。
该项目与亚马逊,谷歌,苹果和微软等正在开发的专有语音识别技术形成了对比。上述巨头正在大力投资于语音助理,但各自的数据集均由公司自己拥有。
Mozilla于11月推出了第一批Common Voice英语数据集,收录了大约500小时的演讲,并通过20000个人构建了40万个录音。今天,Mozilla正式开始收集另外三种语言的语音数据:法语,德语和威尔士语。目前也正在准备收集另外40种语言。
很明显,语音将成为技术的下一个重要平台。正是在这种背景下,Mozilla正在推进创建开源数据集的计划,任何人都可以自由使用这些数据集来将语音识别智能构建到各种应用程序和服务中。
Mozilla首席创新官Katharina Borchert表示:“我们相信这些不应该为少数几家公司独有,并且我们希望用户自己的语言和口音能够被识别和理解。”
Common Voice项目的用途类似于其他用于对抗私人平台的开放许可项目。比如OpenStreetMap,该项目为开发人员提供开放且可自由使用的世界地图。
在可访问性方面,英语可能在互联网中作为通用语而存在,但事实是大多数人的母语并不是英语。随着语音识别AI革命的兴起,为开发机器学习模型的技术人员提供多语言数据集是必要的。
“使用多种语言标志着Common Voice迈出了重要的一步,我们希望这对于整体语音技术来说也是一种进步,”Common Voice项目的数字策略师Michael Henretty 补充道。“语音技术的民主化不仅会降低全球创新的障碍,更打破了信息获取的阻碍。”