MIT研究：开发机器学习模型使计算机更自然地解释人类情绪

2018年07月27日由浅浅发表 22469 0

麻省理工学院媒体实验室的研究人员开发了一种机器学习模型，它使计算机更接近于像人类一样自然地解释我们的情绪。

在“情感计算”这个不断发展的领域，研究人员正在开发机器人和计算机来分析面部表情，解释我们的情绪，并做出相应的反应。例如，应用程序包括监控个人的健康和福祉，衡量学生对课堂的兴趣，帮助诊断某些疾病的迹象，以及开发机器人伴侣。

然而，面临的挑战是人们根据许多因素表达情绪的方式完全不同。在文化，性别和年龄组中可以看到一般差异。但是其他差异甚至更细微：一天中的时间，你睡了多少，甚至你对会话伙伴的熟悉程度都会导致你在某一特定时刻表达的快乐或悲伤的微妙变化。

人类的大脑本能地捕捉到这些偏差，但机器却很困难。近年来开发了深度学习技术以帮助捕捉微妙之处，但它们仍然不尽可能准确或适应不同人群。

媒体实验室的研究人员开发了一种机器学习模型，该模型在捕捉这些小的面部表情变化方面优于传统系统，可以在经过数千张面部图像训练后更好地衡量情绪。此外，通过使用一些额外的训练数据，这个模型可以被改编成一个全新的群体，具有同样的功效。其目的是改进现有的情感计算技术。

媒体实验室研究员兼合作者Oggi Rudovic在一篇描述该模型的论文中提出，“这是监控我们心情的一种不引人注目的方式，如果你想要具有社交机器人，你必须让它们聪明，像人类自然地回应我们的情绪和情绪。”该论文于上周在机器学习与数据挖掘会议上发表。

该论文的共同作者是：第一作者Michael Feffer，电气工程和计算机科学的本科生；Rosalind Picard，媒体艺术和科学教授，情感计算研究小组的创始主任。

个性化专家

传统的情感计算模型使用“一刀切”的概念。他们训练一组图像描绘各种面部表情，优化功能，例如唇部在微笑时如何卷曲 - 并将这些一般特征优化映射到整个新图像集。

相反，研究人员将一种称为“专家混合”（MoE）的技术与模型个性化技术相结合，这种技术帮助从个体中挖掘出更细粒度的面部表情数据。Rudovic说，这是第一次将这两种技术结合起来用于情感计算。

在MoE中，许多称为“专家”的神经网络模型都经过训练，专门从事单独的处理任务并产生一个输出。研究人员还纳入了一个“gating network”，它可以计算出哪位专家能够最好地检测看不见的目标的情绪。“基本上，网络可以在个体之间辨别并判断'这是给定图像的最合适的专家'，”Feffer说。

对于他们的模型，研究人员通过将每个专家与RECOLA数据库中的18个单独视频录制中的一个进行匹配来对MoE进行个性化，RECOLA数据库是人们在为情感计算应用设计的视频聊天平台上进行交谈的公共数据库。他们使用9个科目训练模型，并在其他9个科目上对其进行评估，所有视频都分解为单独的帧。

每个专家和gating network在剩余网络（“ResNet”）的帮助下跟踪每个人的面部表情，在这样做时，模型基于效价水平（愉快或不愉快）和唤醒（兴奋）对每个帧进行评分，常用度量来编码不同的情绪状态。另外，六名人类专家根据-1（低水平）到1（高水平）的等级标记每个框架的价值和唤醒，该模型也用于训练。

然后研究人员进行了进一步的模型个性化，他们从剩余的主题视频的一些帧中提供训练的模型数据，然后在这些视频的所有看不见的帧上测试模型。结果显示，只有5％到10％的数据来自新的人口，该模型大大优于传统模型，这意味着它在看不见的图像上获得了价值和唤醒，更接近人类专家的解释。

Rudovic说，这表明模型有可能从人口到人口，或从个人到个人，只有极少的数据。“这是关键，当你有新的人口时，你必须有办法解释数据分布的变化（如微妙的面部变化）。设想一个模型集来分析一种文化中需要适应不同文化的面部表情。如果不考虑这种数据转移，那些模型将会表现不佳。但是，如果您只是从新文化中抽取一点来调整我们的模型，这些模型可以做得更好，特别是在个人层面。这是最能体现模型个性化重要性的地方。”

目前可用于这种情感计算研究的数据在肤色方面并不是很多样，因此研究人员的训练数据是有限的。但是，当这些数据可用时，可以训练模型以用于更多不同的人群。Feffer说，下一步是将模型用更加多元化文化的更大数据集训练。

更好的人机交互

研究人员说，另一个目标是训练模型，帮助计算机和机器人自动从少量变化的数据中学习，以更自然地检测我们的感受并更好地满足人类的需求。

例如，它可以在计算机或移动设备的背景中运行，以跟踪用户的基于视频的对话，并在不同的环境下学习细微的面部表情变化。“你可以让智能手机应用程序或网站之类的东西能够分辨出人们的感受，并提出应对压力或疼痛的方法，以及其他对他们的生活产生负面影响的事情，”Feffer说。

Rudovic表示，“这也可能有助于监测抑郁症或痴呆症，因为人们的面部表情往往因这些条件而微妙地改变。它能够被动地监控我们的面部表情，随着时间的推移，我们可以向用户个性化这些模型，并监控他们每天有多少偏差偏离平均表情水平，并使用它关于福祉和健康的指标。”

Rudovic说，一个很有前途的应用是人机交互，例如用于教育目的的个人机器人或机器人，机器人需要适应这些机器人来评估许多不同人的情绪状态。例如，有一个版本已被用于帮助机器人更好地解释自闭症儿童的情绪。

贝尔法斯特女王大学心理学荣誉退休教授，情感计算学者Roddy Cowie,表示，麻省理工学院的工作说明了我们在这个领域的实际位置。“我们正发展可以开始使用的系统，包含人们的脸部图片，从非常积极到非常消极，从非常活跃到非常被动的等级。一个人给出的情感符号与另一个人给出的符号不一样，这很直观，因此情感识别在个性化时效果更好是很有意义的。个性化的方法反映了另一个有趣的观点，即训练多个专家并汇总他们的判断比训练单个超级专家更有效。两者结合在一起更令人满意。”

标签：

行业 MIT麻省理工学院

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 AI Benchmark可以测试智能手机的神经网络性能

下一篇斯坦福大学重大突破：直接在光学芯片上训练人工神经网络

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）