文 / Alexander B Wiltschko 高级研究员 Google Research
嗅觉是诸多生物体共有的一种感官,在生物体分析世界并作出相应反应方面起着至关重要的作用。对人类而言,我们的嗅觉与享用美食紧密相连,并且还能唤醒与之对应的鲜活记忆。嗅觉使我们可以感受日常生活中的各种香味,例如我们熟悉的玫瑰花香、新鲜出炉的饼干醇香,抑或是最喜欢的香水味道。虽然嗅觉很重要,但在机器学习研究中它并未像视觉与听觉那般备受关注。
人类的气味感知通过** 400 种不同类型的嗅觉感受器 (Olfactory Receptors, OR) 来实现。嗅觉感受器位于鼻腔内名为嗅觉上皮的小块状组织中,由 100 万个嗅觉感应神经元 (Olfactory Sensory Neurons, OSN) 组成。这些 OSN 将信号发送给嗅球(olfactory bulb),然后进一步传递到大脑皮层产生嗅觉。
基于视觉和声音深度学习研究的类似进展,我们通过类比得知,即使不知道所有相关系统的复杂细节,嗅觉深度学习应该也可以直接预测出输入分子的最终感应结果。解决气味预测问题将有助于发现新的合成气味剂,从而减少取用天然产品造成的生态影响。审视生成的嗅觉模型甚至可以带来嗅觉生物学的新见解。
小气味分子是香精香料最基本的组成成分,因此也代表了最简单的气味预测问题。不过,每个分子都有多个气味描述词。例如,对于香兰素 (Vanillin)的描述词有 甜美、香草味、奶油味 和 巧克力味 等,其中的某些气味会更为明显。因此,气味预测也是一个 多标签分类 问题。
在“气味机器学习:学习小分子的可泛化感知表征” (Machine Learning for Scent: Learning Generalizable Perceptual Representations of Small Molecules) 一文中,我们利用图神经网络(Graph Neural Networks, GNNs),在不采用任何人工规则的情况下,把 图 (Graph) 输入到 GNN,直接预测单个分子的气味描述词。GNN 是一种深度神经网络,可以对图进行操作。研究证明,与目前的最新技术相比,此方法可显著提高气味预测能力,是非常有前景的未来研究方向。
-
气味机器学习:学习小分子的可泛化感知表征
https://arxiv.org/abs/1910.10685
用于气味预测的图神经网络
分子与图相似,原子就像图中的点 (vertices),化学键就像图中的边 (edges),因此 GNN 是非常便于理解的自然模型选择。
-
自然模型选择
https://ai.googleblog.com/2017/04/predicting-properties-of-molecules-with.html
但如何将分子结构转化为图表征呢?首先,使用原子特征、原子电荷等任何首选特征将图的每个节点表示为矢量。然后,在一系列消息传递步骤中,各节点将其当前的矢量值传播到各自的相邻节点。随后,更新函数收集其收到的矢量,生成更新后的矢量值。此过程重复多次,直至图中的所有节点通过求和及求平均值最终聚合为一个矢量。该矢量代表整个分子,随后可将其作为已学习的分子特征传递到全连接网络中。该网络会输出一个气味描述词预测结果,就像调香师提供的描述一样。
每个节点都表示为一个矢量,矢量中的每个输入项最初都会对某些原子级信息进行编码
每个节点会查看其相邻节点,并收集信息,然后使用神经网络将信息进行转换,并更新中心节点的信息。反复执行以上步骤。GNN 的其他变体会利用边和图的信息
气味预测的 GNN 示意图。我们将分子结构转化为图,然后将其输入到 GNN,以学习更好地表示节点。最终图中节点降维成一个矢量,传递到一个包含多个气味描述词的神经网络中输出预测结果
此表征不涉及原子的空间位置,因此无法区分立体异构体,即原子组成相同但结构略有不同的分子。这种分子气味可能不同,例如 (R)- 香芹酮和 (S)- 香芹酮,前者具有薄荷味而后者具有辛辣味。然而出乎意料的是,我们在实践中发现,即使不区分立体异构体,也可以很好地预测气味。
对于气味预测,GNN 实验结果一致表明,与之前最先进 (SOTA) 的方法(比如随机森林法)相比,此方法的效果更好,因为之前的方法不能直接对图结构进行编码。性能提升程度取决于尝试预测的气味类型。
气味描述预测的表现对比:GNN vs 标准基准 (以 AUROC 分数衡量)。气味描述词为随机抽取。值越接近 1.0 预测结果越准确。在大多数情况下,GNN 的表现大大超出该领域的标准基准,在其他评价指标下也基本如此(例如 召回率、精度、AUPRC等)
从模型中学习,并将成果扩展到其他任务
除了预测气味描述词以外,GNN 还可应用于其他嗅觉任务。例如,仅使用有限的数据对全新的或精炼后的气味描述词进行分类。我们针对每个分子提取表征。确切说,是从专为气味描述词优化的模型的中间层提取已学习的表征,我们称之为“气味嵌入(odor embedding)”。您可将其理解为色彩空间的 RGB 或 CMYK。
为了解气味嵌入是否适用于其他相似的预测任务,我们设计了实验,以测试我们的模型在非预期情境中的表现。然后,我们将气味嵌入表征与常见的化学信息表征进行比较,该信息表征可对分子结构信息进行编码,但并不知道气味。结果发现,气味嵌入普遍适用于具有挑战性的新任务,甚至在某些方面符合最尖端的技术要求。
-
常见的化学信息表征
https://pubs.acs.org/doi/abs/10.1021/ci100050t
突出显示某些气味的嵌入空间的二维可视化(高亮显示了部分气味)左图:每种气味在空间中呈现出聚集的表征。右图:气味描述词呈现出层级嵌套的表征。阴影和轮廓线通过嵌入的核密度估计法计算得出。
未来工作
在机器学习领域中,嗅觉仍然是最难以捉摸的感官。我们很高兴通过不断的基础研究逐渐揭开了这个领域的一角。未来的研究大有可为,从设计更廉价更可持续生产的新气味分子,到数字化香味,甚至在某天让丧失嗅觉的人能够嗅到玫瑰花香(也可能是臭鸡蛋味),不一而足。我们还希望通过创建和共享优质的开放数据集,让更多的机器学习研究人员关注这个方向。
致谢
此早期研究是 Google Brain 团队以下出色研究员与工程师的辛勤成果和智慧结晶:Benjamin Sanchez-Lengeling、Jennifer Wei、Brian Lee、Emily Reif、Carey Radebaugh、Max Bileschi、Yoni Halpern 和 D. Sculley。我们很高兴能够与亚利桑那州立大学的 Richard Gerkin 和多伦多大学的 Alán Aspuru-Guzik 协作开展此项研究。当然,先前完成的大量工作也为我们的研究奠定了基础,而且 Justin Gilmer、George Dahl 等人的 GNN 基础方法研究,以及其他神经学、统计学和化学成果也使我们受益匪浅。此外,我们还要感谢 Steven Kearnes、David Belanger、Joel Mainland 和 Emily Mayhew 提供宝贵意见。
更多 AI 相关阅读: