《我不是药神》与AI研制新药

最近电影《我不是药神》引发热议，原研药贵，且研制过程九死一生。近期Science Advances上发表了《Deep reinforcement learning for de novo drug design》（基于深度强化学习的新药设计）、以及2017年Journal of Cheminformatics上的《Molecular de-novo design through deep reinforcement learning》。掀起来人工智能方法研制新药的序幕，人工智能到底如何研制新药的？这种方法有什么优缺点？

在制药行业，新药研发是个费时费力、成本高昂、而且成功率极低的工作。一般研制一个新药，需要上十年的时间，费用超过10亿美元。制药企业积累了大量调控蛋白功能的小分子化合物，规模约百万规模的化合物。需要从百万个候选化合物中，刷选出1个药物。这有点像是大海捞针，运气成分很大。而人工智能方法利用机器学习方法，从海量化合物数据库中提取关键有效信息，也许可以大大减少研发时间，提高筛选的成功率，成为新药研发的新的方法。一旦这条路能顺利走通，必将革新小分子化学药研制。

《我不是药神》与AI研制新药

人工智能方法筛选分子有两个途径：一个是用监督学习的方法建模筛选模型，这种方法好比构建一个大海捞针的模型。另一种方法是利用生成建模依照所需特性来生成分子结构，该方法不需要捞针，而是自动生成生成针取代常规的筛选的过程。我们最初提到近期两篇文章，用的是后一种方法。该方法的的目标是训练出一个生成药物分子的模型，在完成训练之后用该模型生成候选药物。

人工智能具体用到了两类方法：一个是深度学习方法，在这里深度学习方法主要是RNN和生成式对抗网络（GAN,Generative Adversarial Networks ），GAN是近年来非常火的一种学习模型，通过生成模型和判别模型相互博弈产生模型。另一个是强化学习方法，用人类已经研制出的药物作为监督样本，调整模型参数。关于强化学习、监督学习、非监督学习方法，Yann LeCun大神对它们有一个比喻图如下：

《我不是药神》与AI研制新药

生成模型的输入是什么呢？回想GAN方法正在图像处理中，输入就直接是图像本身。而在新药研制中，如果将分子数字化是个很好玩的事情，因为总不能将一个分子直接搬到计算机内存里去吧（想想都怪怪的），只能将分子数字化。而人类对分子描述包括分子式、分可以作为分子的数字化特征。

例如在《The cornucopia of meaningful leads: Applying deep adversarial auto encoders for new molecule development in oncology》论文中，他们使用用美国癌症研究所（NCI）的 NCI-60 药物筛检数据库中针对乳癌细胞 MCF-7 的 6252 种化合物，以及分子指纹和分子浓度、生长抑制百分比等数据作为分子的数字化特征，模型输入包括166个参数，来训练一个生成模型。他们所设计的深度网络结构，由输入层（166+1），编码网络（分别由128个和64个神经元组成的两层网络）、解码网络（分别由64个和128个神经元组成的两层网络）、输出层（166+1）、中间的潜在层（分别由4个神经元和1个代表抑制癌细胞效果数据的GI）、鉴别网络（分别由64个和3个神经元组成的两层网络）组成。研究人员在PubChem的七千多万个小分子中，发现了69个化合物，其中13个是已经申请专利的药物分子，另有13个是被PubChem BioAssay登记有效的化合物。

也有文章直接用分子式或者SMILES数据、分子图像以及其他化学和生物相关的分子结构表征数据作为输入，建立模型。想想都觉得疯狂，直接用SMILES数据描述一个分子，也就是将一个分子类比一个自然语言句子，采用自然语言处理方法中常用的RNN或者LSTM方法对这个分子进行建模。这个AI系统得多智能啊！！！直接看分子式就能研制药物了！！本文一开头提到的两篇论文就是用SMILES数据作为模型输入，训练模型的，他们发现直接学习分子式也是一个可行的策略。

对分子式用SMILES编码方法如下图。在本文开头提到的文章中，作者利用RNN方法（或者LSTM方法）可以训练出生成全新SMILES字符串的模型，再基于强化学习中的迁移方法，利用之前人类的小分子数据集作为学习范本，对前面RNN模型进行微调。最终得到的生成模型有可能产生出于真实世界中药物的化合物。

《我不是药神》与AI研制新药

用人工智能方法设计新药看起来很容易、但实际上，当前AI设计新药存在许多缺陷：一是很难解释，设计出来的模型为什么能成功，缺乏解释。二是样本量不够大。尽管分子式达到了千万的规模，但是监督数据却非常少，根据《Nature Reviews Drug Discovery》2016年的数据，在被FDA批准的1578个药物中，总共涉及的靶点数才667个。而且还没办法想AlphaGO那样自动生成样本。三是强化学习方法中的奖励分无法明确给出，使得现有的强化学习方法运用在新药研制上，真正起作用有限。四是就算挑选出新的分子式，它的临场表现如何还得经历九死一生的过程。