AI帮助保护濒危的印第安语言——塞内卡
2018年10月19日 由 浅浅 发表
472061
0
全世界有近7000种语言,其中约一半被认为是濒危语言。 这意味着他们中的许多人不在学校教授,语言不在商业或政府中使用,并且经常与计算机键盘不兼容。
为了帮助保存其中一种语言的音频和文本证据,罗彻斯特理工学院的研究人员开发了一种基于深度学习的自动语音识别系统,以保护印第安民族的语言塞内卡(Seneca)。
“这是个人的动机。保存和恢复我们的语言的第一步是记录它,”Robert Jimerson(塞内卡人)表示,他是罗切斯特技术学院的计算和信息科学博士研究生和研究团队的一名成员。
塞内卡不到50人使用。为了帮助保护它,Jimerson将部落长老和亲密朋友聚集在一起,他们都是Seneca的母语人士,用于记录这种美洲原住民语言的音频和文本文档。
罗切斯特理工学院计算机工程助理教授Ray Ptucha 说: “之前没有人真正尝试过这种方法,在资源受限的情况下训练自动语音识别模型。”
该团队首先使用预建的深度神经网络(DNN)声学模型训练大量英语数据,并通过转移学习将该模型应用于塞内卡语。
使用NVIDIA Tesla P100 GPU和cuDNN加速的 TensorFlow深度学习框架,Jimerson和他的同事用155分钟的音频训练了网络,其中包括13000个单词,其中包括由几位以塞内卡语为母语的成年人录制和转录的1.3万个单词。
然后,该团队使用三种不同的增强技术创建了新的合成训练数据,其中包括噪声添加,音高增强和速度增强。
“这是一个令人兴奋的项目,因为它汇集了来自工程和计算机科学,语言学和语言教学等众多学科和背景的人,”波士顿学院计算机科学助理教授,RIT学院研究员Emily Prud'hommeaux 说。
目前,该团队专注于降低单词错误率,他们认为这是由于训练数据集较小。该团队表示,他们开发的合成数据可以降低单词错误率,但该模型仍需要一些工作。
该团队在他们的论文中指出,“随着我们当前语言文档项目中塞内卡语料库的规模增加,我们预计这些方法之间的性能差距将会缩小。”
论文:www.isca-speech.org/archive/SLTU_2018/pdfs/Robbie.pdf