AI小分子药物发现的「百科全书」，康奈尔、剑桥、EPFL等研究者综述登Nature子刊

程序猿 • 2025年11月26日 15:12:22 • 用户投稿 • 阅读 0

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

作者 | 康奈尔大学杜沅岂

编辑 | ScienceAI

随着 AI for Science 受到越来越多的关注，人们更加关心 AI 如何解决一系列科学问题并且可以被成功借鉴到其他相近的领域。

AI 与小分子药物发现是其中一个非常有代表性和很早被探索的领域。分子发现是一个非常困难的组合优化问题（由于分子结构的离散性）并且搜索空间非常庞大与崎岖，同时验证搜索到的分子属性又十分困难，通常需要昂贵的实验，至少是至少是模拟计算、量子化学的方法来提供反馈。

随着机器学习的高速发展和得益于早期的探索（包括构建了简单可用的优化目标与效果衡量方法），大量的算法被研发，包括组合优化，搜索，采样算法（遗传算法、蒙特卡洛树搜索、强化学习、生成流模型/GFlowNet，马尔可夫链蒙特卡洛等），与连续优化算法，贝叶斯优化，基于梯度的优化等。同时现有较为完备的算法衡量基准，比较客观公平的比较方式，也为开发机器学习算法开拓了广阔的空间。

近日，康奈尔大学、剑桥大学和洛桑联邦理工学院（EPFL）的研究人员在《Nature Machine Intelligence》发表了题为《Machine learning-aided generative molecular design》的综述文章。

新CG儿

数字视觉分享平台 | AE模板_视频素材

412 查看详情

论文链接：https://www.nature.com/articles/s42256-024-00843-5

该综述回顾了机器学习在生成式分子设计中的应用。药物发现和开发需要优化分子以满足特定的理化性质和生物活性。然而，由于搜索空间巨大和优化函数不连续，传统方法既昂贵又容易失败。机器学习通过结合分子生成和筛选步骤，进而加速早期药物发现过程。

图示：生成式 ML 辅助分子设计流程。

生成性分子设计任务

生成性分子设计可以分为两大范式：分布学习和目标导向生成，其中目标导向生成可以进一步分为条件生成和分子优化。每种方法的适用性取决于具体任务和所涉及的数据。

分布学习 (distribution learning)

分布学习旨在通过对给定数据集分子的概率分布建模来描述数据的分布，从而从学习到的分布中采样新分子。

条件生成 (conditional generation)

属性条件生成 (property-conditioned generation)：生成具有特定属性的结构，可以为一个文字的描述，或者一个具体属性的数值。分子子结构条件生成(molecular (sub)structure-conditioned generation)：生成具有特定结构约束的分子，例如设计部分结构、支架跳跃、连接子设计、重新设计整个结构（先导优化）或整个分子的条件生成（构象生成）。目标条件生成 (target-conditioned generation)：旨在生成对特定疾病相关生物分子靶点具有高结合亲和力的分子。与属性条件生成不同，目标条件生成利用对靶点结构的显式访问，通过整合直接的靶点-配体相互作用来提高配体分子与靶点的亲和力。表型条件生成 (phenotype-conditioned generation)：涉及从基于细胞的显微镜或其他生物检测读数（如转录组数据）中学习表型指纹，以提供条件信号，指导生成朝向理想的生物学结果的分子。

分子优化 (molecule optimization)

分子优化在药物发现中起着关键作用，通过细化药物候选者的属性来提高其安全性、有效性和药代动力学特性。涉及对候选分子结构进行小的修改，以优化药物性质，如溶解度、生物利用度和靶点亲和力，从而提高治疗潜力并增加临床终点的成功率。

图示：生成任务、生成策略和分子表征的图示。

分子生成流程

分子生成是一个复杂的流程包括许多不同的组合单元，我们在下图中列出了代表性的工作，并且介绍每一个部分的代表性单元。

分子表示

在开发分子生成的神经架构时，首先要确定分子结构的机器可读输入和输出表示。输入表示有助于将适当的归纳偏差注入模型，而输出表示则确定了分子的优化搜索空间。表示类型决定了生成方法的适用性，例如，离散搜索算法只能应用于图和字符串等组合表示。

虽然已经研究了各种输入表示，但对表示类型和编码它们的神经架构的权衡还不明确。分子之间的表示转换并不一定是双射的，例如，密度图和指纹无法唯一识别分子，需要进一步的技术来解决这一非平凡的映射问题。常见的分子表示包括字符串、二维拓扑图和三维几何图。

基于字符串的分子结构：通常编码为字符串，如简化的分子输入线条输入系统（SMILES）或自引用嵌入字符串（SELFIES）。SMILES 用语法规则表示分子，但字符串可能无效；SELFIES 通过修改这些规则确定了分子的有效性。分子字符串通常通过递归网络和 Transformer 模型编码为序列数据。基于拓扑和几何图的原子和键：通常在拓扑图中表示为节点和边。图神经网络（GNNs）常用于建模图结构分子数据，基于相邻节点更新节点和边特征。在三维信息可用且相关时，几何 GNNs 常用于捕捉三维空间中的应用相关对称性，如平移和旋转不变性或等变性。

表示粒度是生成模型设计中的另一个考虑因素。通常，方法利用原子或分子片段作为生成期间的基本组成单元。基于片段的表示将分子结构细化为包含原子组的较大单元，携带层次信息，如官能团标识，从而与传统的基于片段或药效团药物设计方法对齐。

生成方法

深度生成模型是一类估计数据概率分布并从学习分布中抽样的方法（也称为分布学习）。其中包括变分自编码器，生成对抗网络，正则化流 (normalizing flows)，自回归模型，扩散模型。这些生成方法中的每一种都有其适用的情境和优缺点，具体的选择取决于所需任务和数据特征。

生成策略

生成策略指模型输出分子结构的方式，一般可以分为一次性生成、顺序生成或迭代改进。

一次性生成：一次性生成在模型的单次前向传递中生成完整的分子结构。这种方法通常难以生成具有高精度的真实和合理的分子结构。此外，一次性生成通常不能满足显式约束，如价态约束，这对于确保生成结构的准确性和有效性至关重要。

顺序生成：顺序生成通过一系列步骤构建分子结构，通常按原子或片段进行。顺序生成中容易注入价态约束，从而提高生成分子的质量。然而，顺序生成的主要限制是需要在训练期间定义生成轨迹的顺序，并且推理速度较慢。

迭代改进：迭代改进通过预测一系列更新来调整预测，避开一次性生成方法中的难点。例如，AlphaFold2 中的循环结构模块成功地将骨架框架精细化，这种方法启发了相关的分子生成策略。扩散模型是一个常见技术，通过一系列降噪步骤生成新数据。目前，扩散模型已应用于多种分子生成问题，包括构象生成、基于结构的药物设计和连接子设计。

优化策略

组合优化：对于分子（如图或字符串）的组合编码，可以直接应用组合优化领域的技术。

连续优化：分子可以在连续域中表示或编码，例如在欧几里得空间中的点云和几何图，或在连续潜在空间中编码离散数据的深度生成模型。

生成性机器学习模型的评估

评估生成模型需要计算评价和实验验证。标准指标包括有效性、独特性、新颖性等。评估模型时应综合考虑多个指标，以全面评估生成性能。

实验验证

生成的分子必须通过湿法实验来进行明确的验证，这与现有研究主要关注计算贡献形成鲜明对比。虽然生成模型并非没有弱点，但预测与实验之间的脱节也归因于进行此类验证所需的专业知识、昂贵的费用、以及漫长的测试周期。

生成模型规律

大多数报告实验验证的研究使用 RNN 和/或 VAE，并以 SMILES 作为操作对象。我们总结了四个主要观察点：

SMILES 虽然捕捉到的 3D 信息有限，但作为一种高效的表示方式，适用于分布学习和小数据集的微调。许多实验验证的研究目标是激酶，这是 ChEMBL 等流行开源数据集中的常见靶点。绝大多数目标导向的方法使用强化学习（单独或作为组件）作为优化算法，包括基于配体和基于结构的药物设计。AlphaFold 预测的结构可以成功用于生成结构的药物设计。

未来方向

尽管机器学习算法为小分子药物发现带来了曙光，但是还有更多的挑战与机遇需要面对。

挑战

分布外生成：已知化学物质只占化学空间的一小部分。虽然深度生成模型可以提出训练分布之外的分子，但需要确保其合理性。不现实的问题表述：精确的问题表述对于开发适用于现实世界药物发现的模型至关重要。常常忽略的基本方面包括构象动态、水的作用和熵贡献，而诸如无限访问 oracle 调用的假设也常被错误地认为是理所当然的。这包含了样本效率问题，最近的研究在有限 oracle 预算下的高效目标导向生成方面取得了进展。低保真 oracle：在药物发现相关维度上有效评分设计仍然困难，成为工业环境中部署生成模型的瓶颈。例如，高通量结合亲和力预测在数据驱动和基于物理的工作流中通常不准确。虽然存在替代的高精度 oracle，但其计算需求限制了可扩展性。此外，高质量标注数据的不可获取性也成为开发具有高精度和可管理 AI oracle 的障碍。缺乏统一的评估协议：用于评估药物候选物质量的评估协议与我们定义何为良好药物的标准密切相关。ML 社区通常使用的易于计算的物理化学描述符存在疑问，肯定无法全面反映性能。在生成分子设计与虚拟筛选之间进行严格比较也较少见。缺乏大规模研究和基准测试：许多ML方法已经开发出来，但在许多关键任务中的不同模型类型上没有公平的基准测试结果。例如，仅使用了可用数据的一小部分进行训练，限制了对模型可扩展性的理解。最近的基准测试对标准化计算评估协议的重要贡献。缺乏可解释性：可解释性是分子生成模型中一个重要但未充分探索的领域。例如，洞察生成或优化过程如何构建分子可以产生化学规则，这对药物化学家具有解释性。这在小分子领域尤其重要，因为生成模型通常用于向药物化学家提交想法，合成障碍排除了测试所有生成设计的可能性。

机会

超越小分子设计的应用：这里讨论的方法可能在设计其他复杂结构材料（如多糖、蛋白质（特别是抗体）、核酸、晶体结构和聚合物）方面有更广泛的应用。大语言模型展示了通过文本指导的发现和决策作为代理来革新分子设计的潜力，这得益于大量可用的训练数据，包括科学文献。此外，针对分子结构进行定制或微调的模型为研究人员提供了利用自然语言处理中的成熟进展的额外机会。药物开发的后期阶段：分子设计/优化占据了药物发现的早期阶段。然而，由于有限的疗效、较差的 ADME/T（吸收、分布、新陈代谢、排泄和毒性）特性和安全问题导致的晚期失败是药物开发管道中的痛点。尽管有限，但将临床数据集成到设计管道中是提高下游成功率的一个有希望的方向。聚焦模型目的：药物发现管道是制药公司多年经验和艰难教训的结果。ML 研究人员应该不仅仅设计纯粹的从头设计模型（特别是在缺乏深度表征能力时），还应设计聚焦于在多年过程中的特定步骤上改进的模型，符合现实约束。自动化实验室：对高通量实验的需求不断增加，以为 ML 设计的分子提供反馈，将越来越多的注意力集中在自动化实验室上，以加快设计–制造–测试–分析循环。

作者: 杜沅岂，康奈尔大学计算机系二年级博士生，主要研究兴趣，几何深度学习，概率模型，采样，搜索，优化问题，可解释性，与在分子探索领域的应用，具体信息见：https://yuanqidu.github.io/。

以上就是AI小分子药物发现的「百科全书」，康奈尔、剑桥、EPFL等研究者综述登Nature子刊的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/793678.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

怎么精准把握企业移动APP的用户需求

上一篇 2025年11月26日 15:12:22

VSCode前端：Vue.js开发环境配置

下一篇 2025年11月26日 15:12:29

好文分享

HTML、CSS 和 JavaScript 中的简单侧边栏菜单

构建一个简单的侧边栏菜单是一个很好的主意，它可以为您的网站添加有价值的功能和令人惊叹的外观。侧边栏菜单对于客户找到不同项目的方式很有用，而不会让他们觉得自己有太多选择，从而创造了简单性和秩序。今天，我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

程序猿
2025年12月24日
5000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
1000
好文分享

带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

响应式侧边导航栏不仅有助于改善网站的导航，还可以解决整齐放置链接的问题，从而增强用户体验。通过使用工具提示，可以让用户了解每个链接的功能，包括设计紧凑的情况。在本教程中，我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。对于那些一直想要一个干净、简…

程序猿
2025年12月24日
1000
好文分享

布局 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在这里查看视觉效果：固定导航 – 布局 – codesandbox两列 – 布局 – codesandbox三列 – 布局 – codesandbox圣杯 &#8…

程序猿
2025年12月24日
1000
好文分享

隐藏元素 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看隐藏元素的视觉效果 – codesandbox 隐藏元素 hiding elements hiding elements hiding elements hiding elements hiding element…

程序猿
2025年12月24日
5000
居中 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看垂直中心 – codesandbox 和水平中心的视觉效果。通过 css 居中垂直居中 centering centering centering centering centering centering立即…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

如何在 Laravel 框架中轻松集成微信支付和支付宝支付？

如何用 laravel 框架集成微信支付和支付宝支付问题：如何在 laravel 框架中集成微信支付和支付宝支付？回答：建议使用 easywechat 的 laravel 版，easywechat 是一个由腾讯工程师开发的高质量微信开放平台 sdk，已被广泛地应用于许多 laravel 项目中…

程序猿
2025年12月24日
1000
好文分享

如何在移动端实现子 div 在父 div 内任意滑动查看？

如何在移动端中实现让子 div 在父 div 内任意滑动查看在移动端开发中，有时我们需要让子 div 在父 div 内任意滑动查看。然而，使用滚动条无法实现负值移动，因此需要采用其他方法。解决方案：使用绝对布局（absolute）或相对布局（relative）：将子 div 设置为绝对或相对定…

程序猿
2025年12月24日
1000
好文分享

移动端嵌套 DIV 中子 DIV 如何水平滑动？

移动端嵌套 DIV 中子 DIV 滑动在移动端开发中，遇到这样的问题：当子 DIV 的高度小于父 DIV 时，无法在父 DIV 中水平滚动子 DIV。无限画布要实现子 DIV 在父 DIV 中任意滑动，需要创建一个无限画布。使用滚动无法达到负值，因此需要使用其他方法。相对定位一种方法是将子…

程序猿
2025年12月24日
1000
好文分享

移动端项目中，如何消除rem字体大小计算带来的CSS扭曲？

移动端项目中消除rem字体大小计算带来的css扭曲在移动端项目中，使用rem计算根节点字体大小可以实现自适应布局。但是，此方法可能会导致页面打开时出现css扭曲，这是因为页面内容在根节点字体大小赋值后重新渲染造成的。解决方案：要避免这种情况，将计算根节点字体大小的js脚本移动到页面的最前面，即…

程序猿
2025年12月24日
0000
好文分享

Nuxt 移动端项目中 rem 计算导致 CSS 变形，如何解决？

Nuxt 移动端项目中解决 rem 计算导致 CSS 变形在 Nuxt 移动端项目中使用 rem 计算根节点字体大小时，可能会遇到一个问题：页面内容在字体大小发生变化时会重绘，导致 CSS 变形。解决方案：可将计算根节点字体大小的 JS 代码块置于页面最前端的标签内，确保在其他资源加载之前执…

程序猿
2025年12月24日
2000
好文分享

Nuxt 移动端项目使用 rem 计算字体大小导致页面变形，如何解决？

rem 计算导致移动端页面变形的解决方法在 nuxt 移动端项目中使用 rem 计算根节点字体大小时，页面会发生内容重绘，导致页面打开时出现样式变形。如何避免这种现象？解决方案：移动根节点字体大小计算代码到页面顶部，即 head 中。原理： flexível.js 也遇到了类似问题，它的解决…

程序猿
2025年12月24日
0000
好文分享

形状 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看 codesandbox 的视觉效果。通过css绘制各种形状如何在 css 中绘制正方形、梯形、三角形、异形三角形、扇形、圆形、半圆、固定宽高比、0.5px 线？ shapes 0.5px line .square { w…

程序猿
2025年12月24日
0000
好文分享

有哪些美观的开源数字大屏驾驶舱框架？

开源数字大屏驾驶舱框架推荐问题：有哪些美观的开源数字大屏驾驶舱框架？答案：资源包 [弗若恩智能大屏驾驶舱开发资源包](https://www.fanruan.com/resource/152) 软件 [弗若恩报表 – 数字大屏可视化组件](https://www.fanruan.c…

程序猿
2025年12月24日
0000
好文分享

网站底部如何实现飘彩带效果？

网站底部飘彩带效果的 js 库实现许多网站都会在特殊节日或活动中添加一些趣味性的视觉效果，例如点击按钮后散发的五彩缤纷的彩带。对于一个特定的网站来说，其飘彩带效果的实现方式可能有以下几个方面：以 https://dub.sh/ 网站为例，它底部按钮点击后的彩带效果是由 javascript 库实…

程序猿
2025年12月24日
0000
网站彩带效果背后是哪个JS库？

网站彩带效果背后是哪个js库？当你访问某些网站时，点击按钮后，屏幕上会飘出五颜六色的彩带，营造出庆祝的氛围。这些效果是通过使用javascript库实现的。问题：哪个javascript库能够实现网站上点击按钮散发彩带的效果？答案：根据给定网站的源代码分析：可以发现，该网站使用了以下js…

程序猿
好文分享 2025年12月24日
1000
好文分享

产品预览卡项目

这个项目最初是来自 Frontend Mentor 的挑战，旨在使用 HTML 和 CSS 创建响应式产品预览卡。最初的任务是设计一张具有视觉吸引力和功能性的产品卡，能够无缝适应各种屏幕尺寸。这涉及使用 CSS 媒体查询来确保布局在不同设备上保持一致且用户友好。产品卡包含产品图像、标签、标题、描述和…

程序猿
2025年12月24日
1000
好文分享

如何利用 echarts-gl 绘制带发光的 3D 图表？

如何绘制带发光的 3d 图表，类似于 echarts 中的示例？为了实现类似的 3d 图表效果，需要引入 echarts-gl 库：https://github.com/ecomfe/echarts-gl。 echarts-gl 专用于在 webgl 环境中渲染 3d 图形。它提供了各种 3d 图…

程序猿
2025年12月24日
0000
好文分享

如何在 Element UI 的 el-rate 组件中实现 5 颗星 5 分制与百分制之间的转换？

如何在el-rate中将5颗星5分制的分值显示为5颗星百分制？要实现该效果，只需使用 el-rate 组件的 allow-half 属性。在设置 allow-half 属性后，获得的结果乘以 20 即可得到0-100之间的百分制分数。如下所示： score = score * 20; 动态显示鼠标…

程序猿
2025年12月24日
1000
好文分享

CSS 最佳实践：后端程序员重温 CSS 时常见的三个疑问？

CSS 最佳实践：提升代码质量作为后端程序员，在重温 CSS/HTML 时，你可能会遇到一些关于最佳实践的问题。以下将解答三个常见问题，帮助你编写更规范、清晰的 CSS 代码。 1. margin 设置策略当相邻元素都设置了 margin 时，通常情况下应为上一个元素设置 margin-bott…

程序猿
2025年12月24日
0000

发表回复

登录后才能评论

AI小分子药物发现的「百科全书」，康奈尔、剑桥、EPFL等研究者综述登Nature子刊

关于作者

相关推荐

发表回复