谷歌推出数据集，旨在识别AI伪造的语音

2019年02月01日由浅浅发表 68391 0

当谷歌在2018年3月宣布推出谷歌新闻计划时，它承诺发布有助于推进最先进研究的数据集，用于检测AI伪造的数字音频检测，AI生成的音频会误导或欺骗语音验证系统。现在，它兑现了这一承诺。

谷歌新闻团队和谷歌的AI研究部门Gai prinoogle AI合作制作了一个语音语料库，其中包含公司的文本语音转换模型所使用的数千个短语。从英文报纸文章中提取的短语由68种不同的合成声音组成，涵盖了各种地区口音。

当收听汽车中的谷歌地图驾驶路线，从谷歌主页获取答案，或在谷歌翻译中听到口语翻译时，你在使用谷歌的语音合成或文字转语音（TTS）技术。语音界面不仅允许你自然而方便地与数字设备进行交互，它们是使信息普遍可访问的关键技术，但是这一技术是把双刃剑。

谷歌AI的软件工程师Daisy Stanton表示，“在过去几年中，使用神经网络模拟人类声音的新研究爆炸式增长。这些模型，包括谷歌开发的许多模型，可以产生越来越逼真的，类似人类的语音，虽然进展令人兴奋，但我们非常清楚这项技术如果用于违法活动会带来的风险。这就是我们采取行动的原因。”

该数据集可供ASVspoof 2019的所有参与者使用，该竞赛旨在促进针对欺骗性语音的检测和对策的开发，特别是可以区分真实和计算机生成的语音的系统。、

通过真实和计算机生成的语音模型进行训练，ASVspoof参与者可以开发学习区分两者的系统。结果将于9月在奥地利格拉茨举行的2019年Interspeech会议上公布。

Stanton说，“正如我们去年在AI原则中发表的那样，我们认真负责与外部研究团体合作，并采取强有力的安全措施，以避免造成风险和意外的结果，我们还坚定地致力于谷歌新闻计划的章程，以帮助新闻业在数字时代茁壮成长，我们对ASVspoof挑战的支持是这一过程中的重要一步。”

最近，可用于产生误导性媒体的AI系统受到越来越多的审查。恶意行为者可能会合成语音以试图欺骗语音身份验证系统，或者他们可能会创建伪造的录音来诽谤公众人物。也许同样令人担忧的是，deep fake可以被媒体操纵，因为区分真实内容和篡改内容变得更加困难。

幸运的是，研究者们正在与它们进行斗争。去年夏天，DARPA媒体取证计划的成员测试了一个原型系统，该系统可以自动检测deep fake或被篡改的图像或视频，部分是通过寻找视频中不自然的眨眼等提示。创业公司Truepic，在7月筹集了800万美元的资金，正在尝试将deep fake检测作为一项服务。

标签：

语音识别谷歌数据集

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇办公室想吐槽？小心！AI助手将监测你说的每句话

下一篇仅需1秒，AI即可识别出声音中的愤怒情绪

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）