Drug Discov Today综述|分子从头设计和生成模型

2021年6月,来自AI药物发现公司BenevolentAI的Joshua Meyers等人在Drug Discovery Today发表文章,对分子从头设计和生成模型方面的进展、挑战以及未来的机会进行了综述(www.gxLp.net)。

以下是全文内容。

1.摘要

分子设计策略是药物发现的组成部分。在过去的三十年里,分子从头设计的计算方法已经被开发出来。最近,随着机器学习(ML)和人工智能(AI)的进步,药物发现领域获得了新的实践经验。在这里,我们回顾了这些经验,并根据分子表示的程度,介绍了从头设计的方法:即基于原子、基于片段、基于反应的分子设计方法。此外,我们强调了评估基准的价值,描述了在实践中使用这些方法的主要挑战,并对未来几年进一步探索的机会和需要解决的挑战提出了我们的观点。

2.前言

分子从头设计是自动提出新的化学结构、以最佳方式满足所需的分子特征的过程。通常在药物发现中,目标分子特征是为了获得理想的生物学效应,同时保持可接受的药代动力学特性。最近,从头设计也被称为生成化学,这源于人工智能中生成模型的日益普及。

传统上,虚拟筛选(VS)是用来识别可能表现出理想的实验结果的分子。与从头设计相比,一个关键的区别是所考虑的分子来源:在虚拟筛选中,结构是预先知道的;而在从头设计中,我们试图生成待评估的结构。

化学空间(即横跨所有可能的分子的广阔空间)是巨大的。尽管按照药物发现的标准,虚拟筛选库已经变得非常庞大(许多库中含有多达10亿个分子),但这些库所对应的化学空间只占很小一部分。当考虑这样的化合物库时,评估方法可能会必然牺牲预测的准确性。通过使用从头设计以定向方式生成化合物,计算工作者希望更有效地穿越化学空间,在分析比大型化学库(“粗暴”筛选)更少的分子的同时,获得最佳的化学解决方案(图1)。此外,对于一个给定的目标,化学空间可能有许多可接受的区域,为此,分子设计方法的任务是平衡对全局解决方案的探索和对局部最小值的利用。

从头设计在化学信息学中有着丰富的历史。随着ML方法不断为大型搜索空间的导航和取样提供新的可能性,从头设计最近也受到了关注。在这篇文章中,我们从分子表征程度的角度来考虑从头设计的方法。具体而言,我们对生成新结构的基于原子的、基于片段的和基于反应的方法进行了区分。在讨论生成化学已建立的方法和新的前沿领域之前,我们首先回顾了评估比较能力(比较从头设计方法的能力)的方法。最后,我们评估了从头设计的成功之处,并强调了在实现分子从头设计全部潜力的道路上有待跨越的潜在障碍。

图1化学空间的示意图

(a)在给定一个任意的客观分子特性轮廓的情况下,用颜色表示该区域内分子的最优性。对预先存在的大型化学库进行虚拟筛选(b)和通过有效的从头分子设计程序穿越化学空间(c)之间的概念差异。从头设计的结果是考虑更少的分子,通过更有效地遍历化学空间达到最佳的分子结构。

3.分子设计

3.1评估从头分子设计的方法

为了一致地评估自动生成化学结构的方法的进展,建立评估标准的基准是至关重要的。

从头设计方法通常是通过其在独立的任务上的表现来评估的,如进行最大程度类药性的定量(QED)或计算辛醇-水分配系数(ClogP)。尽管这对于展示优化器生成分子的能力来说是微不足道的,但这样的基准未能捕捉到现实世界药物发现的复杂性。

相比之下,评估从头设计方法的另一种方法是通过实验来证明它们的使用。例如,Firth等人合成并测试了循环依赖性激酶2(CDK2)的新型抑制剂,虽然作者追求前瞻性验证的做法值得赞扬,但对该方法的评估是有问题的,因为结果是传闻,而且取决于与从头设计算法无关的许多因素。

3.2分子表示

评估化学结构的计算方法必须依赖于合适的分子表示,也就是后续算法所看到的分子结构的形式。分子表示是一个广泛的话题。例如,方法可以编码官能团的存在或不存在,将分子表达为其拓扑图,或包括描述键角的三维信息。

在从头设计的方法中,常见的分子表征是基于文本的,如SMILES,以及基于图形的(其中分子生成器可能明确地操作分子拓扑结构)。基于文本的方法得益于自然语言处理(NLP)的大量活跃研究,而基于图形的方法则体现了对分子结构更自然的表述。其他影响表示法选择的因素包括分子表示法是否是离散的(如比特向量)、连续的(如浮点向量)和可逆的。最近对从头设计方法的评论集中在通过生成模型结构的角度来讨论分子表示法,而我们在这里集中讨论分子表示法的颗粒度(图2),因为这直接转化为分子设计的实际方面。

图2以阿司匹林为例,说明了基于原子、基于片段和基于反应的分子表示方法之间的连续性

基于原子的方法是由一个包含少量原子和键的“词汇”支持的。基于反应的方法是由dual sets of reactants和反应规则支持的。最后,基于片段的方法由一个片段方案和一组可互换的片段支持;灰色的原子表示用断开类型(颜色)注释的连接点。

SMILES作为生成模型的分子表示法已经很普遍了;然而,SMILES的一个缺点是每个SMILES字符串并不是对分子图的唯一描述。一个SMILES是通过分子结构的线性行走来构建的;因此,不同的起始位置和通过分子的路径会产生不同的SMILES。经典的SMILES代表了分子图的标准化遍历;然而,在经典的SMILES上训练的生成模型可以捕获SMILES语法的干扰方面,而不是基础的分子结构。研究表明,在生成模型的训练中纳入非经典的SMILES是有好处的。此外,从适应性来说,SMILES已经被描述为更适合与ML一起使用,包括DeepSMILES和SELFIES。

化学结构可以在原子水平上表示(通过对分子中的每个原子和键进行编码),或者更粗略的表示(功能团或子结构及其连接性保持固定,如具有1,3取代模式的苯基可以被视为一个单一的基团)。进一步的延展,是对反应进行编码,即目标分子被认为是反应物和反应条件的产物。在实践中,基于原子、基于片段和基于反应的方法都有明显的优势和劣势,许多方法模糊了这些分类之间的界限。

4.无梯度分子优化

给定分子表示,优化算法根据可计算的目标函数指导生成最优分子。用于从头设计的元启发式("无梯度")方法使用基于群体的随机优化程序来导航化学空间,如进化算法或蜂群智能。简而言之,我们突出了最近文献中关于其选择的分子表示粒度的示范性工作。(见表1)。

4.1基于原子

基于原子的从头设计方法的一个例子是基于图的遗传算法(GB-GA),它使用反应SMARTS对候选分子库进行突变和交叉,同时自然选择程序确保最优化的分子保持在群体中;ChemGE使用语法进化来优化一个符合上下文无关语法的SMILES种群。GBGA被纳入了GuacaMol基准,并取得了最先进的性能,尽管基准的作者通过测量分子中活性和不稳定基团的数量来评价化合物的“质量”。

Winter等描述了分子群优化(MSO),一种利用粒子群优化在连续嵌入空间中识别理想区域,然后解码离散分子结构的方法。虽然MSO使用的表示是学习的,但优化过程是一个无梯度的方法,并在GuacaMol目标导向基准上实现了最先进的性能。以群体为基础的方法的一个关键问题是保持群体的结构多样性。MolFinder使用池中分子之间的最小拓扑距离来确保这一点,而基于图的GB-EPI扩展了GB-GA,来维持基于特征的小生态位的种群。

4.2基于片段

基于片段的方法限制了新化合物的生成。其包括已知的相关子结构,如药物化学文献中的子结构。片段化方案使用简单的规则(如所有的无环单键)或受追溯合成学启发的断裂来解构分子,然后可以使用每个包含一个或多个原子的片段库来构建新分子。

MOARF是一种基于片段的从头设计方法,它利用了一套逆向合成断开规则(SynDiR)和一个进化算法。最近开发的CReM框架使用化学上合理的突变,使用从匹配的分子对中改编的片段方案,在GuacaMol目标导向的基准任务上显示出与MSO相当的性能。

4.3基于反应

可以说,从头设计的最实用的策略是在计算机中进行正向反应。2003年,Vinkers等人描述了SYNOPSIS,这是一种迭代应用虚拟反应来最大化期望适应度函数的方法,通过合成和测试旨在抑制艾滋病毒逆转录酶(HIV-RT)的化合物来证明。最近开发的AutoGrow4利用了一种遗传算法和一个反应库,该反应库来自于稳健的有机反应,用来突变种群中的分子。

反应模板的一个缺点是不考虑分子中其他反应基团,而匹配反应处理,这在实际中会影响反应。Ghiandoni等人最近报告了一个反应类别推荐器,允许从不需要的类别中过滤反应。

5.基于梯度的分子优化

尽管基于群体的元启发式设计方法在寻找优化最小值方面已被证明是稳健的,但在过去的三年里,分子设计的深度学习方法已被广泛采用。基于梯度的ML方法通常在现有分子结构的大型语料库中进行预训练,并学习如何在任意的属性表面导航,以获得最佳解决方案。

研究人员已经提出了几种用于学习生成分子结构的深度学习架构,包括变异自动编码器(VAEs)、生成对抗网络(GANs)和循环神经网络(RNNs)。一旦经过训练,生成模型允许用户从所学的化学空间中抽取分子,当与优化过程(如贝叶斯优化(BO)或强化学习(RL))相结合时,可以有效地识别理想的分子轮廓。关于所涉及的ML过程的更多细节,我们请读者参考最近的文章(参考文献9-11)。

5.1基于原子

许多基于原子的生成模型利用SMILES作为分子表示。鉴于SMILES是一种基于文本的表示方法,生成化学方法能够利用适合序列的深度学习架构,如RNNs。通过对大量的分子结构语料库进行预训练,生成模型可以先验地学习,从而囊括有效的SMILES的语法和句法。早期的工作是用转移学习来使生成偏向于感兴趣的化学空间,现在普遍的做法是将生成任务与RL算法结合起来,后者学习在搜索空间中导航以获得更高的奖励(更多的最佳分子)。

除了基于SMILES的生成模型外,人们对直接考虑分子图的拓扑结构的模型也很感兴趣,其中原子和键分别被视为节点和边。通过对分子结构更自然的表述,基于图的模型试图避开SMILES语法的人为方面的因素。GraphVAE和MolGAN是基于生成图的方法,它可以一次学会生成整个图的邻接矩阵。还有人描述了通过迭代修改分子图来逐步学习生成分子的方法。最近,RL方法在图的设置中显示了有希望的结果。

5.2基于片段

虽然经过预训练的基于原子的生成模型对其训练数据中存在的子结构保持了很强的先验能力,但它们仍然能够单独修改分子中的每个原子。尽管这种灵活性鼓励学习的模型具有最大的表现力,从而对化学空间有更广泛的覆盖,但基于片段的方法使用更粗糙的分子表示法来限制搜索空间(1996年文献)。

20多年后,葛兰素史克公司的研究人员报告了一个使用Seq2Seq模型的情况,该模型可以学习到还原图和SMILES之间的转换。Jin等人描述了JTVAE,这是一个两步的生成过程,首先构建一个结点树来表示分子中的分子子结构的组成(很像还原图),随后,使用图信息传递网络来解码最终的分子结构。DeepFMPO通过所考虑的片段的相似性来限制优化,显示出更好的性能。

5.3基于反应

有几项工作报告了用于新分子设计的基于反应的生成模型。DINGOS以美国专利商标局(USPTO)的反应数据集为基础,使用ML和基于规则的混合方法产生与分子模板结构相似的新化学实体。Molecule Chef使用VAE嵌入反应物结构,并通过偏重反应物的选择(对于单步反应)来优化生成物的分子特性。

ChemBO代表了一种算法上更简单的方法,即用随机选择的反应物和条件来随机生成候选结构,然后对其进行性能评估。这个工作流程通过多步化学合成产生分子,尽管反应物的选择不偏向于优化目标。

最近的研究报告称,通过将正向合成建模为马尔科夫决策过程(MDP),使用RL来浏览可能反应的巨大空间。REACTOR使用一组双反应物的反应模板(编码为反应SMARTS),并根据哪些反应物能最大限度地提高下一个状态的获益来选择缺失的反应物。当产生一个以上的反应产物时,会选择与最大获益相关的产物。同样,前向合成的政策梯度(PGFS)将有偏见的反应物选择与多步反应相结合,(分子)图(DoGs)的有向无环图(DAG)方法迭代地生成前向合成路线的DAG。

在药物发现方面,ML的突破性成功之一是合成路线规划的发展,它可以学习从大型反应数据库中预测合成路线。目前基于反应的生成模型的一个限制是它们对“手工”制作的反应模板的依赖。我们希望未来的研究能将学习到的反应模式与化学空间的通用优化器结合起来。

6.3D分子从头设计

考虑分子的三维环境可能是有益的,并且可以通过在优化目标中包括三维评分器来轻松实现,如形状相似性、分子对接、量子力学计算或自由能扰动(FEP)计算。然而,这些方法是以分子和蛋白质(如果相关)的构象假设为前提的,并且经常与不准确的物理力表示相结合;因此,包括三维评分器并不总是一个优越的方法。除了概念上的困难外,还有实际的挑战,例如为数千甚至数百万的分子打分所带来的计算和许可费用。

三维分子结构也可以由生成模型通过条件生成直接产生。直接三维生成对于优化蛋白质-配体结合(从而绕过对接搜索算法)或预测晶体包装等用例具有潜在的优势。事实上,早期的从头设计构建三维分子的例子(如SPROUT)使用分子片段的迭代树状搜索来构建蛋白质结合部位内的分子。现代方法包括DeLinker,一种用于三维骨架跳跃和片段生长的方法;以及LigDream,它利用条件VAE和图像加标题模块来生成SMILES。Simm等人描述了一个基于RL的生成框架,该框架使用旋转不变的内坐标系统,能够生成三维的分子。

7.成功与挑战

7.1全新分子的合成和测试

最终,从头设计方法的影响是通过它们在药物发现项目中的使用来体现的。以前的一篇文章收集了从头设计的实验验证;在这里,我们讨论最近选定的例子,重点是生成模型。

Zhavoronkov等人发表了可能是报道最广泛的自动分子设计药物的案例,其中作者使用基于GAN的生成方法GENTRL,选择了40个化合物进行合成,并针对盘状结构受体1(DDR1)激酶进行测试。对合成的化合物进行了后续的小鼠药代动力学研究,结果发现了一个具有良好特性的先导化合物;作者认为在进行候选化合物选择之前有可能进一步优化。

Assmann等人描述了部署从头设计以帮助发现CDK9的新型抑制剂的实际挑战。描述了一个精炼的虚拟筛选策略,其中由分子发生器提出的分子被用作EnamineREAL库的相似性搜索的种子。在69个测试的化合物中,有7个显示出对CDK9的活性。Perron等人最近报告了另一个部署生成方法以确定多参数目标的最佳解决方案的实际演示,使用的是基于RNN的生成模型。

Li等人研究了基于RNN的从头设计方法在化学空间的研究领域产生新型分子抑制剂的能力。作者描述了为寻找研究良好的原癌基因丝氨酸/苏氨酸蛋白激酶1(PIM1)和CDK4激酶的新型抑制剂所做的努力。在测试了四种化合物后,他们报告了一种有效的PIM1抑制剂和两种抑制CDK4的领先化合物。

Grisoni等人最近展示了将基于一步反应的生成设计与自动片上合成相结合,以确定肝脏X受体(LXR)的激动剂。总共成功合成了25个化合物,随后的体外活性筛选和后续研究显示,其中12个化合物是强效的,对LXR的激活高达60倍。

生成模型也被用来提出新型小分子的合成和测试,作为治疗2019年冠状病毒(COVID-19)感染的潜在方法。

7.2实用人工智能

生成方法在使用上应该是灵活的,这样它们可以补充药物化学的常规设计策略。分子表示的程度与目标分子的可操作性密切相关。尽管基于原子的方法具有很强的表现力,并且可以探索最大数量的分子,但它们的合成可能是不切实际的。基于片段的范式限制了分子生成的表现力,但在目标分子的平均可操作性方面有优势。基于反应的方法是实用的和可操作的,但反应物和反应的搜索空间是巨大的,目前的方法不能提供合成是否可能成功的指示。

一个常用的药物化学设计策略,是探究分子的单一区域修饰或固定骨架修饰的影响。这种有针对性的修饰使研究人员能够建立对相关结构-性能关系的理解。对于从头开始的工作流程,要产生一组保证包含特定子结构的分子,要么分子生成器必须知道分子图谱,要么可以应用后处理过滤器来删除没有所需图谱的分子。前一种策略更可取,因为它的样本效率更高,而且能保证输出分子,因为所有最终的分子都有可能被过滤掉。对于依靠SMILES(基于文本)表示的分子生成器来说,固定骨架的从头设计是一个挑战,因为生成器必须学习哪些非连续的句法字符对应于固定的子结构原子。Arús-Pous等人通过使用零散的分子进行训练,并允许生成器从分子骨架上的连接点开始表示分子,从而克服了这一表示法的缺陷。图形表示法可以更自然地实现固定骨架的从头设计。

已发表的从头设计方法对手性的考虑并不一致。虽然三维方法明确地输出了手性分子,但许多方法根本没有考虑手性,用户不得不为合成相关的对映体而进行合理化。一个简单的解决方案是列举一个候选分子的所有可能的立体异构体并为其打分。我们希望未来的基准发展应该强调目标方法中的这一缺陷。

尽管我们已经讨论了基于原子、基于片段和基于反应的分子表示法在这方面的优点,但如何平衡生成的分子的表现力、优化的便利性和可操作性仍然是一个挑战。除了目标的化学的合成可及性,允许用户指定一组可用的构件的方法还提供了一个额外的实际优势。我们希望未来基于反应的工作流程能以较低的成本和较少的单个反应步骤优先考虑高产、可靠的反应。在类似的实践中,Vaucher等人最近描述了一种方法,将文本中的非结构化反应程序转化为可操作的合成步骤序列;这种行动序列对于实现自动合成的努力至关重要。

7.3设计目标函数的挑战

从头设计的一个突出挑战是如何使所需的特性曲线更准确地反映药物化学的需要。虽然这些方法可以根据计算的分子性质谱、相似度测量或定量构效关系(QSAR)模型来优化分子,但药物发现是多方面的,目前的从头设计工作受限于整个过程的狭窄视野。

尽管一直需要改进复杂生物反应的预测模型,但多目标优化(MOO)旨在利用数据融合的概念,如帕累托最优或标准化的z-cores,合并来自几个弱“评分者”的信号。设计有效的MOO配置文件是很重要的,当组合多个目标时,经常使用归一化函数和缩放协议通常需要在评分函数细化和分子生成之间进行多次迭代实验。

Gruenif.ai演示了一个人在循环中的工作流程,用户可以在分子生成时提供交互式反馈。作者认为,更多地关注这类工具,以指导分子设计的有效评分功能的开发将是有益的。

MOO指导分子生成器对化学空间的探索,并经常涉及使用一个或多个QSAR模型。这些模型在给定一组训练实例的情况下预测未来化合物的分子特性。最近一项探索分子生成器故障模式的研究表明,尽管依赖预测模型是很自然的,但应谨慎行事,因为分子生成器可以利用模型特有的特征,这些特征是由模型特有的和数据特有的偏差引起的,导致生成的分子在数值上是优越的,但实际上并不实用。这种不受欢迎的利用行为并不是QSAR模型所特有的,也可以在三维模型中观察到,比如前面讨论的那些。考虑由QSAR模型做出的预测的可信度也很重要,因为预测的准确性高度依赖于模型的适用领域。

7.4改进基准

改进从头设计方法的基准将鼓励开发更有用的方法。尽管在标准基准的重要性方面,从头设计已经从计算机视觉那里学到了很多东西,但现在有必要扩展开来,建立专门用于药物发现的基准。

目前衡量生成分子多样性的基准指标可能具有误导性。在Renz等人的研究中,作者试验了一个假的生成模型AddCarbon,它随机地将碳添加到训练集的分子中。根据设计,该模型只产生新的、有效的分子,因此在GuacaMol分布基准上表现非常好。鉴于这个模型在实践中显然是无用的,这个实验表明目前的基准很容易被愚弄,并表明有必要把注意力集中在改进生成性能的措施上。特别是,系统地测量化学结构的新颖性是具有挑战性的,因为在现实中,新颖性意味着非显而易见的创造性步骤,这是由精通药物化学的人判断的。Bush等人测量了化学家的想法和不同设计方法所建议的分子之间的重叠。尽管对于测量新的分子设计工具的能力来说并不实用,但这项研究表明了生成方法所建议的分子的真正新颖性。

虽然GuacaMol目标定向基准组件代表了分子生成器要完成的任务,正如Zhang等人所说的,其中许多任务是很容易解决的,但我们认为可以增加更具挑战性的任务来评估从头设计的方法在实际药物发现中的作用。例如,与平均合成能力有关的任务、对局部最小值陷阱的敏感性、样品效率、在预定义的构件库限制下的生成或固定骨架分子的生成将为未来方法学的发展提供方向。还可以针对更专门的设置进行扩展,如三维方法,或那些以生物背景为条件的方法。

尽管标准基准有所改进,但显然仍需要在计算机中的任务和真正的体外验证之间找到一个中间地带。我们希望该领域能通过实验重新审视新方法。

7.5从头设计方法的发展机会

对从头设计工作流程进行算法改进的机会仍然很多,特别是要使从头设计方法在药物发现中更有实际意义。特别是,基于反应的从头设计工作流程和采用更自然的基于图的表示方法是未来研究的有希望的方向。我们还认为基于片段的方法在分子表现力和实用性之间提供了一个有吸引力的折中方案。

我们还想提醒这个领域,尽管基于梯度的方法在从头设计方面带来了巨大的关注和进步,但无梯度的方法也是化学结构的有效优化者,表现出稳健性,减少了计算负担,并具有最先进的基准性能;此外,使用包括两个技术系列的优势的方法,可能会有重大收获。

除了继续推进现有的生成模型系列外,我们对其他统计学上强大的方法有效生成分子的潜力感到兴奋,特别是那些注重图形表示的方法,如基于流动的自回归模型,它通过一系列可逆变换将简单分布映射到化学空间。

另一个有趣的方向是开发专门的生成模型,在生成过程中纳入额外的环境,如三维环境、三维蛋白结合点、或基因表达特征。

最后,我们评论说,许多生成模型仍然是黑箱技术,因此,旨在更好地理解这些方法的诊断性研究将有助于为它们在该领域的使用提出实际建议。例如,Grebner等人研究了训练集的选择对生成分子的影响,并探索了不同的分子评分协议。这些研究使作者能够就如何在线索生成和线索优化两方面实际支持方案提出建议。

8.结束语

ML和AI在药物发现中的作用越来越大。人们对新的分子设计方法很感兴趣,因为它们能够比虚拟筛选或人类专家更有效地驾驭极其庞大的化学空间。尽管早期人们对使用自动方法进行分子设计存在担忧,通常与所建议的分子的不稳定性、反应性、可操作性和合成的可行性有关,但我们现在有各种工具可供支配,这些工具可以熟练生成合理的分子结构。

现在,该领域的挑战是评估我们的生成器和优化目标是否对手头的任务有用。为此,我们加强了对基于原子的生成器的分类,这种最大限度的表达范式可以鼓励我们制造以前没有描述过的分子;基于片段的方法是实用的,并受制于一套预定的构件;基于反应的从头设计工具,它有一个原生的语法,但有一个更具挑战性的优化问题。

新的分子设计和生成化学模型在该领域仍然是一个有争议的话题,但我们相信,从已有经验中学习并将这些方法加入药物化学工具箱是有潜力的。

参考资料

https://linkinghub.elsevier.com/retrieve/pii/S1359-6446(21)00253-1

公司名称:广州龙宇五金筛网有限公司