谷歌使用深度学习预测分子的嗅觉特性

2019年10月25日 由 KING 发表 243863 0

嗅觉是一种动物共有的感觉,并且它在生物如何对外界做出反应方面起着至关重要的作用。对于人类来说,我们的嗅觉与我们享用食物的能力息息相关。嗅觉使我们可以感应到日常生活中各种各样的气味,尽管它很重要,但嗅觉并没有像视觉和听觉那样受到机器学习研究人员的关注。


人类的气味感知是通过激活400种不同类型的嗅觉受体(OR)来实现的,嗅觉感知神经元(OSNs),位于称为嗅觉上皮的一小块组织中。这些OSN将信号发送到嗅球,然后再发送到大脑中的其他组织。基于视觉和声音深度学习的类似先例,即使不知道所有涉及系统的复杂细节,也应该可以直接预测输入分子的最终感觉结果。解决气味预测问题将有助于发现新的合成气味剂,从而减少利用天然植物带来的生态影响。对产生的嗅觉模型的检查甚至可能产生对气味生物学的新发现。小气味分子是香精最基本组成部分,因此它代表了气味预测问题的最简单形式。但是每个分子可以具有多个气味标签。例如,香兰素具有甜味,香草味,奶油味巧克力味等标签,其中某些成分比其他成分更明显。因此,气味预测也是一个多标签分类问题。


谷歌研究人员利用了图神经网络(GNN),这是一种设计用于对图进行操作的深度神经网络。作为输入,无需制定任何规则即可直接预测单个分子的气味标签。他们证明,与目前的最新技术相比,该方法在气味预测方面具有显着改善的性能,并且是未来研究的有希望的方向。



用于气味预测的图神经网络



每个节点都表示为一个向量,向量中的每个条目最初都会编码一些原子级信息。



对于每个节点,我们查看相邻节点并收集其信息,然后使用神经网络将其转换为中心节点的新信息。此过程是迭代执行的。GNN的其他变体利用边缘和图形级信息。



GNN的气味预测图。我们将分子的结构转换成图,然​​后将其输入到GNN层中,以学习更好地表示节点。这些节点被简化为单个向量,并传递到用于预测多个气味描述符的神经网络中。


由于分子类似于图,原子形成顶点而键形成边缘,因此GNN是理解它们的自然选择。但是,如何将分子的结构转化为图形表示呢?最初,使用任何首选的特征化(原子身份,原子电荷等)将图中的每个节点表示为一个向量。然后,在一系列信号传递步骤,每个节点向每个相邻单位传播其当前向量值。然后,更新功能将收集发送给它的向量的集合,并生成更新的向量值。此过程可以重复多次,直到最终通过求和或求平均值将图中的所有节点汇总为单个向量。然后,可以将代表整个分子的单个矢量传递到完全连接的网络中,以学习分子功能。这种表示对原子的空间位置一无所知,因此它无法区分立体异构体,即由相同原子组成但分子结构略有不同的分子,例如(R)-和(S)-香芹酮。然而,我们发现,即使不区分立体异构体,实际上仍然可以很好地预测气味。为了进行气味预测,与以前的最新技术相比,GNN始终表现出更高的性能。


以AUROC分数衡量,在强基线下,GNN在气味描述符上的性能示例。随机抽取示例气味描述符。接近1.0意味着更好。在大多数情况下,GNN的性能大大超过领域标准的基准,与其他指标(例如AUPRC,召回率,精度)相比,其性能相似。



从模型中学习,并将其扩展到其他任务


除了预测气味标签外,GNN还可应用于其他嗅觉任务。例如,仅使用有限的数据对气味标签进行分类。对于每个分子,都可以从模型的中间层提取一个学习的表示形式,该中间层针对气味标签进行了优化,称之为“气味嵌入”。可以将其视为色彩空间的嗅觉版本,例如RGB或CMYK。为了了解这种气味嵌入对于预测相关但不同的任务是否有用,研究人员设计了一些实验来测试嵌入在相关任务上。然后,将气味嵌入表示的性能与常见的化学信息学表示形式,它编码分子的结构信息,但与气味不可知,并且发现气味的嵌入普遍适用于一些具有挑战性的新任务,甚至在某些方面符合最新技术要求。


嵌入空间的2D快照,突出显示了一些示例气味。左:每种气味都聚集在自己的空间中。右:气味描述符的层次性质。阴影和轮廓区域是使用嵌入的核密度估计来计算的。



未来的工作


在机器学习领域中,气味仍然是最难以捉摸的。未来研究的可能性是多种多样的,涉及到从设计更便宜、更可持续生产的新型嗅觉分子到将气味数字化,甚至有一天使没有嗅觉的人可以接触到气味。我们希望通过最终创建和共享高质量的开放数据集,也将这个问题引起更多机器学习领域的注意。

欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消