让机器辨别气味：利用图神经网络预测分子的嗅觉属性

文 / Alexander B Wiltschko 高级研究员 Google Research

嗅觉是诸多生物体共有的一种感官，在生物体分析世界并作出相应反应方面起着至关重要的作用。对人类而言，我们的嗅觉与享用美食紧密相连，并且还能唤醒与之对应的鲜活记忆。嗅觉使我们可以感受日常生活中的各种香味，例如我们熟悉的玫瑰花香、新鲜出炉的饼干醇香，抑或是最喜欢的香水味道。虽然嗅觉很重要，但在机器学习研究中它并未像视觉与听觉那般备受关注。

人类的气味感知通过** 400 种不同类型的嗅觉感受器 (Olfactory Receptors, OR) 来实现。嗅觉感受器位于鼻腔内名为嗅觉上皮的小块状组织中，由 100 万个嗅觉感应神经元 (Olfactory Sensory Neurons, OSN) 组成。这些 OSN 将信号发送给嗅球(olfactory bulb)，然后进一步传递到大脑皮层产生嗅觉。

基于视觉和声音深度学习研究的类似进展，我们通过类比得知，即使不知道所有相关系统的复杂细节，嗅觉深度学习应该也可以直接预测出输入分子的最终感应结果。解决气味预测问题将有助于发现新的合成气味剂，从而减少取用天然产品造成的生态影响。审视生成的嗅觉模型甚至可以带来嗅觉生物学的新见解。

小气味分子是香精香料最基本的组成成分，因此也代表了最简单的气味预测问题。不过，每个分子都有多个气味描述词。例如，对于香兰素 (Vanillin)的描述词有 甜美、香草味、奶油味和巧克力味 等，其中的某些气味会更为明显。因此，气味预测也是一个 多标签分类 问题。

在“气味机器学习：学习小分子的可泛化感知表征” (Machine Learning for Scent: Learning Generalizable Perceptual Representations of Small Molecules) 一文中，我们利用图神经网络（Graph Neural Networks, GNNs），在不采用任何人工规则的情况下，把图 (Graph) 输入到 GNN，直接预测单个分子的气味描述词。GNN 是一种深度神经网络，可以对图进行操作。研究证明，与目前的最新技术相比，此方法可显著提高气味预测能力，是非常有前景的未来研究方向。

气味机器学习：学习小分子的可泛化感知表征
https://arxiv.org/abs/1910.10685

用于气味预测的图神经网络

分子与图相似，原子就像图中的点 (vertices)，化学键就像图中的边 (edges)，因此 GNN 是非常便于理解的自然模型选择。

自然模型选择
https://ai.googleblog.com/2017/04/predicting-properties-of-molecules-with.html

但如何将分子结构转化为图表征呢？首先，使用原子特征、原子电荷等任何首选特征将图的每个节点表示为矢量。然后，在一系列消息传递步骤中，各节点将其当前的矢量值传播到各自的相邻节点。随后，更新函数收集其收到的矢量，生成更新后的矢量值。此过程重复多次，直至图中的所有节点通过求和及求平均值最终聚合为一个矢量。该矢量代表整个分子，随后可将其作为已学习的分子特征传递到全连接网络中。该网络会输出一个气味描述词预测结果，就像调香师提供的描述一样。

让机器辨别气味：利用图神经网络预测分子的嗅觉属性

每个节点都表示为一个矢量，矢量中的每个输入项最初都会对某些原子级信息进行编码

让机器辨别气味：利用图神经网络预测分子的嗅觉属性

每个节点会查看其相邻节点，并收集信息，然后使用神经网络将信息进行转换，并更新中心节点的信息。反复执行以上步骤。GNN 的其他变体会利用边和图的信息

让机器辨别气味：利用图神经网络预测分子的嗅觉属性

气味预测的 GNN 示意图。我们将分子结构转化为图，然后将其输入到 GNN，以学习更好地表示节点。最终图中节点降维成一个矢量，传递到一个包含多个气味描述词的神经网络中输出预测结果

此表征不涉及原子的空间位置，因此无法区分立体异构体，即原子组成相同但结构略有不同的分子。这种分子气味可能不同，例如 (R)- 香芹酮和 (S)- 香芹酮，前者具有薄荷味而后者具有辛辣味。然而出乎意料的是，我们在实践中发现，即使不区分立体异构体，也可以很好地预测气味。

对于气味预测，GNN 实验结果一致表明，与之前最先进 (SOTA) 的方法（比如随机森林法）相比，此方法的效果更好，因为之前的方法不能直接对图结构进行编码。性能提升程度取决于尝试预测的气味类型。

让机器辨别气味：利用图神经网络预测分子的嗅觉属性

气味描述预测的表现对比：GNN vs 标准基准 (以 AUROC 分数衡量)。气味描述词为随机抽取。值越接近 1.0 预测结果越准确。在大多数情况下，GNN 的表现大大超出该领域的标准基准，在其他评价指标下也基本如此（例如召回率、精度、AUPRC等）

从模型中学习，并将成果扩展到其他任务

除了预测气味描述词以外，GNN 还可应用于其他嗅觉任务。例如，仅使用有限的数据对全新的或精炼后的气味描述词进行分类。我们针对每个分子提取表征。确切说，是从专为气味描述词优化的模型的中间层提取已学习的表征，我们称之为“气味嵌入(odor embedding)”。您可将其理解为色彩空间的 RGB 或 CMYK。

为了解气味嵌入是否适用于其他相似的预测任务，我们设计了实验，以测试我们的模型在非预期情境中的表现。然后，我们将气味嵌入表征与常见的化学信息表征进行比较，该信息表征可对分子结构信息进行编码，但并不知道气味。结果发现，气味嵌入普遍适用于具有挑战性的新任务，甚至在某些方面符合最尖端的技术要求。

常见的化学信息表征
https://pubs.acs.org/doi/abs/10.1021/ci100050t

让机器辨别气味：利用图神经网络预测分子的嗅觉属性

突出显示某些气味的嵌入空间的二维可视化（高亮显示了部分气味）左图：每种气味在空间中呈现出聚集的表征。右图：气味描述词呈现出层级嵌套的表征。阴影和轮廓线通过嵌入的核密度估计法计算得出。

未来工作

在机器学习领域中，嗅觉仍然是最难以捉摸的感官。我们很高兴通过不断的基础研究逐渐揭开了这个领域的一角。未来的研究大有可为，从设计更廉价更可持续生产的新气味分子，到数字化香味，甚至在某天让丧失嗅觉的人能够嗅到玫瑰花香（也可能是臭鸡蛋味），不一而足。我们还希望通过创建和共享优质的开放数据集，让更多的机器学习研究人员关注这个方向。

致谢

此早期研究是 Google Brain 团队以下出色研究员与工程师的辛勤成果和智慧结晶：Benjamin Sanchez-Lengeling、Jennifer Wei、Brian Lee、Emily Reif、Carey Radebaugh、Max Bileschi、Yoni Halpern 和 D. Sculley。我们很高兴能够与亚利桑那州立大学的 Richard Gerkin 和多伦多大学的 Alán Aspuru-Guzik 协作开展此项研究。当然，先前完成的大量工作也为我们的研究奠定了基础，而且 Justin Gilmer、George Dahl 等人的 GNN 基础方法研究，以及其他神经学、统计学和化学成果也使我们受益匪浅。此外，我们还要感谢 Steven Kearnes、David Belanger、Joel Mainland 和 Emily Mayhew 提供宝贵意见。

更多 AI 相关阅读：

让机器辨别气味：利用图神经网络预测分子的嗅觉属性

秒客网

让机器辨别气味：利用图神经网络预测分子的嗅觉属性

相关文章