研究人员训练AI根据人的声音片段预测并重建长相

2019年06月03日由董灵灵发表 431946 0

仅凭声音就能知道人的长相，这似乎只存在于科幻小说中。现在麻省理工学院的研究人员通过人工智能取得了惊人的成就。

仅通过分析一个人声音的片段，人工智能就重建了他们在现实生活中的模样。

人工智能生成的结果并不完美，但也相当不错。然而这是一个非常可怕的例子，说明复杂的人工智能可以从微小的数据片段中做出令人难以置信的推断。

在一篇新论文中，该团队描述了使用经过训练的生成对抗网络来分析短语音片段，并匹配说话者的几种生物特征，生成的长相准确性比偶然匹配好得多。

团队使用深度网络架构，用YouTube和其他在线视频训练，分析短语音片段并重建样貌。在训练期间，模型学习视听，语音，面部相关性，使其能够生成捕捉说话者的各种身体属性的图像，如年龄，性别和种族。

这是利用互联网视频中人脸和语音的自然共现，并以自我监督的方式完成的，而无需明确地对属性进行建模。团队直接从音频中获得的重建揭示了面部和声音之间的相关性。

这是研究人员精心打造的语言，在实践中，Speech2Face算法似乎有一个不可思议的本领，只根据人们的说话声音就会输出大致的肖像。

麻省理工学院的研究并不是第一个根据录音重建物理特性的研究。卡内基梅隆大学的研究人员最近发表了一篇关于类似算法的论文，他们去年在世界经济论坛上发表过这篇论文。

麻省理工学院的研究人员在该项目的GitHub页面上敦促大家保持谨慎，如果这项技术深入发展，会引发有关隐私和歧视等令人担忧的问题。

团队表示，“尽管这是一个纯粹的学术调查，但我们认为，由于面部信息的潜在敏感性，在文章中明确讨论一套道德考虑因素很重要，任何进一步的调查或实际使用这项技术都应该仔细测试，以确保训练数据能够代表预期的用户群。”

论文：

arxiv.org/abs/1905.09773

项目：

speech2face.github.io

标签：

视觉识别语音识别 AI生成

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 AI仅靠雷达测量的数据即可对道路上的物体进行分类

下一篇深度学习优化颜色以实现伪装或突显主体

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）