附带深度语音伪造检测的语音平台

2019年12月18日由 TGS 发表 485821 0

人工智能与机器学习是合成语音的强大工具。无数研究表明，在最先进的模型中，只需几秒钟就可以精确地模仿受试者的声音韵律和语调。例如，百度最新的深度语音服务可以用3.7秒的音频样本克隆一个语音，7月份的一篇研究论文发布的克隆实现只需要大约5秒。

这一领域的快速发展激励着刚从黑莓和Hipmunk公司工作不久的前Magic Leap首席软件工程师Zohaib Ahmed，他与Saqib Muhammad共同创立了总部位于安大略省的like AI。两人试图将用于语音合成的领先机器学习模型调整为可伸缩的，目的是构建一种能够从相对较小的数据集中克隆语音的服务。而在推出语音合成产品的同时，他们还推出了一种检测深度语音伪造的工具。

两位创始人很有先见之明，他们意识到，像任何能够创造令人信服的合成音频的工具一样，他们的平台也可能被恶意者滥用。据总部位于阿姆斯特丹的网络安全初创公司Deeptrace称，“深度语音伪造”正在成倍增长。在6月和7月的最近一次统计中，它发现了14,698个网络上的深度伪造视频，比去年12月的7,964个有所增加，仅在7个月内就增长了84%。因此，该团队几个月前发布了一个名为blyzer的深度语音伪造检测工具，能够通过提取语音样本的高级表示方法，预测辨别真实还是生成。只要给定一个语音文件，它就可以创建一个包含256个值的摘要向量，该向量可以总结语音的特征，使开发人员能够比较两种语音的相似性，或者推断出在任何给定时刻谁在说话。

开发者有义务保证自己的孩子不被坏人利用，该公司的两位创始人表示：“作为研究人员和企业家，我们考虑过我们所创造的东西对社会的好处和风险。当你在我们的平台上发出自己的声音时，我们会采取一切必要措施来维护声音的所有权，确保你的声音不会被滥用。”

标签：

语音识别深度伪造

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌助手现在可以在智能手机上解释44种语言

下一篇 DeepMind和谷歌用人工智能重现了前NFL后卫蒂姆•肖的声音

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）