清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

清华团队提出知识引导的图 transformer 预训练框架:提高分子表征学习的方法

编辑 | 紫罗

为了促进分子特性预测,在药物发现领域,学习有效的分子特征表征非常重要。最近,人们通过采用自监督学习技术,预先训练图神经网络(GNN)来克服数据稀缺的挑战。然而,目前基于自监督学习的方法存在两个主要问题:缺乏明确的自监督学习策略和 GNN 的能力有限

近日,来自清华大学、西湖大学和之江实验室的研究团队,提出了知识引导的图 Transformer 预训练(Knowledge-guided Pre-training of Graph Transformer,KPGT),这是一种自监督学习框架,通过显著增强的分子表征学习提供改进的、可泛化和稳健的分子特性预测。KPGT 框架集成了专为分子图设计的图 Transformer 和知识引导的预训练策略,以充分捕获分子的结构和语义知识。

通过对 63 个数据集进行广泛的计算测试,KPGT 在预测各个领域的分子特性方面表现出了卓越的性能。此外,通过鉴定两种抗肿瘤靶点的潜在抑制剂验证了 KPGT 在药物发现中的实际适用性。总体而言,KPGT 可以为推进 AI 辅助药物发现过程提供强大且有用的工具。

该研究以《A knowledge-guided pre-training framework for improving molecular representation learning》为题,于 2023 年 11 月 21 日发布在《Nature Communications》上。

清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法

通过实验确定分子特性需要大量时间和资源,鉴定具有所需特性的分子是药物发现领域最重大的挑战之一。近年来,基于人工智能的方法在预测分子特性方面发挥着越来越重要的作用。基于人工智能的分子特性预测方法的主要挑战之一是分子的表征

近年来,基于深度学习的方法的出现成为预测分子特性的潜在有用工具,主要是因为它们具有从简单输入数据中自动提取有效特征的卓越能力。值得注意的是,各种神经网络架构,包括循环神经网络(RNN)、卷积神经网络(CNN)和图神经网络(GNN)擅长对各种格式的分子数据进行建模,从简化的分子输入行输入系统(SMILES)到分子图像和分子图。然而,标记分子的有限可用性和化学空间的广阔限制了它们的预测性能,特别是在处理分布外数据样本时。

随着自监督学习方法在自然语言处理和计算机视觉领域取得的显著成就,这些技术已被应用于预训练 GNN 并改进分子的表征学习,从而在下游分子性质预测任务中取得了实质性的进展

研究人员假设将定量描述分子特征的额外知识引入自监督学习框架可以有效应对这些挑战。分子有许多定量特征,例如分子描述符和指纹,可以通过当前建立的计算工具轻松获得。整合这些额外的知识可以将丰富的分子语义信息引入自监督学习中,从而大大增强语义丰富的分子表征的获取。

通常,现有的自监督学习方法依赖于GNN作为核心模型。然而,GNN的模型容量有限。此外,GNN可能很难捕捉原子之间的远程交互。而基于Transformer的模型已经成为一种改变游戏规则的模型。它的特点是参数数量不断增加,并且能够捕捉到长程相互作用,为全面模拟分子的结构特征提供了有希望的途径

自监督学习框架 KPGT

在这项研究中,研究人员引入了一种名为 KPGT 的自监督学习框架,旨在加强分子表征学习,从而推动下游的分子属性预测任务。KPGT 框架由两个主要组件组成:一个被称为 Line Graph Transformer(LiGhT)的主干模型和一个知识引导的预训练策略。KPGT 框架结合了高容量的 LiGhT 模型,该模型专门用于准确建模分子图结构,并利用知识引导的预训练策略来捕捉分子结构和语义知识

研究团队使用ChEMBL29数据集中的约200万个分子,通过知识引导的预训练策略对LiGhT进行了预训练

知我AI 知我AI

一款多端AI知识助理,通过一键生成播客/视频/文档/网页文章摘要、思维导图,提高个人知识获取效率;自动存储知识,通过与知识库聊天,提高知识利用效率。

知我AI 26 查看详情 知我AI

清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法

重写内容为:图表:KPGT 概述。(资料来源:论文)

KPGT 在分子性质预测方面优于基线方法。与几种基线方法相比,KPGT 在 63 个数据集上取得了很大的进步。

清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法

图示:KPGT 和基线方法在分子性质预测方面的比较评估。(来源:论文)

此外,通过成功利用 KPGT 识别造血祖细胞激酶 1 (HPK1) 和成纤维细胞生长因子受体 (FGFR1) 两个抗肿瘤靶点的潜在抑制剂,展示了 KPGT 的实际应用性。

清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法

图示:使用 KPGT 识别 HPK1 抑制剂。(来源:论文)

清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法

图示:使用 KPGT 识别 FGFR1 抑制剂。(来源:论文)

研究局限性

尽管 KPGT 在有效分子特性预测方面具有优势,但仍然存在一些局限性。

首先,附加知识的整合是所提方法最显著的特征。除了 KPGT 中使用的 200 个分子描述符和 512 个 RDKFP 之外,还有可能纳入各种其他类型的附加信息知识。
此外,进一步的研究可以将三维 (3D) 分子构象整合到预训练过程中,从而使模型能够捕获有关分子的重要 3D 信息,并有可能增强表征学习能力。
虽然 KPGT 目前采用具有大约 1 亿个参数的主干模型,以及对 200 万个分子的预训练,但探索更大规模的预训练可以为分子表征学习提供更实质性的好处。

总的来说,KPGT 为有效的分子表征学习提供了强大的自监督学习框架,从而推动了人工智能辅助药物发现领域的发展。

论文链接:https://www.nature.com/articles/s41467-023-43214-1

以上就是清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/458930.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 02:40:34
下一篇 2025年11月8日 02:45:17

相关推荐

  • Python中安装matplotlib:一个简单的快速入门指南

    标题:快速入门:Python中安装matplotlib的简易指南 在Python中,matplotlib是一个广泛使用的数据可视化库,它提供了丰富的绘图功能,能够以简单易懂的方式展示数据。本文将介绍如何在Python中安装matplotlib,并提供具体的代码示例,以帮助初学者快速入门。 一、安装P…

    2025年12月13日
    000
  • 快速入门:Python人工智能库一览

    快速入门: Python人工智能库一览,需要具体代码示例 引言:随着人工智能技术的快速发展,应用于机器学习和深度学习的Python人工智能库也越来越多。这些库提供了各种强大的工具和算法,使得开发者们能够更加轻松地构建和训练自己的人工智能模型。本文将介绍一些常用的Python人工智能库,并提供具体的代…

    2025年12月13日
    000
  • python入门基础教程

    python是一门简单易学、功能强大的编程语言,适合初学者入门。下面是一个简要的python入门基础教程,帮助您快速上手python编程。 1. 安装Python:首先,您需要在计算机上安装Python解释器。您可以从Python官方网站(https://www.python.org)下载最新版本的…

    好文分享 2025年12月13日
    000
  • MongoDB从入门到提高【第一集】———MongdoDB配置参数说明及示例

    【第一集】———MongdoDB配置参数说明及示例 开头依然是扯蛋 写这个系列的文章确实是我鼓起好大的勇气完成的。如果在文章中出现什么错误或者不妥的地方,请好心的读者朋友尽快指出,让我们共同成长。最近在个人项目中想用到最近接触的NoSql数据库来试着 【第一集】&…

    2025年12月2日
    100
  • mysql语句入门详解

    本文主要和大家分享mysql语句入门详解,专门和大家一步一步详解mysql语句,希望能帮助到大家。 Select,Left Join的用法,及模糊查询的实现: left join 关键字会从左表 (table_name1) 那里返回所有的行,即使在右表 (table_name2) 中没有匹配的行。(…

    2025年12月2日
    000
  • 2024Q2全球入门手机TOP10出炉:Redmi 13C屠榜第一 遥遥领先

    9月4日消息,市场调查机构counterpoint research最新发布了2024年第2季度入门机的市场数据。其中显示,该季度全球经济型智能手机销量突破1亿部,同比增长10%,占全球智能手机销量的37%。最畅销的前10款经济型智能手机达到四分之一,高于去年同期的21%。 1. 前十排行榜被小米、…

    2025年12月1日 行业动态
    000
  • 海致科技发布首个知识图谱融合大模型应用平台,助力国内百模大战

    9月8日下午,中国工程院院士、清华大学计算机系教授、%ignore_a_1%首席科学家郑纬民在北京演示发布了由海致科技与高性能图计算院士工作站共同开发的「atlas llm 知识图谱与大模型融合应用平台」,该平台面向广大b端用户,运用知识图谱这项人工智能基础技术,帮助大模型在企业级和工业界应用中克服…

    2025年12月1日 科技
    000
  • 千亿规模参数,阿里云通义千问进化到2.0:性能超GPT-3.5,加速追赶GPT-4

    阿里云于10月31日正式发布了千亿级参数大模型通义千问2.0。根据10个权威测评结果显示,通义千问2.0的综合性能超过了GPT-3.5,并且正在快速迎头赶上GPT-4。当天,通义千问APP在各大手机应用市场上线,任何人都可以通过该APP直接体验最新模型的能力 过去 6 个月,通义千问 2.0 在性能…

    2025年12月1日 科技
    000
  • 阿里云全面升级AI基础设施,通义千问2.0正式亮相,中国大模型公司一半部署在阿里云上

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 智能时代的云计算技术体系 全面升级 AI 基础设施 AI产业中的核心技术是大模型,而基础模型的质量很大程度上决定了AI产业化的前景。训练大模型需要包括算力底座、网络、存储、大数据、AI框架、AI…

    2025年12月1日 科技
    000
  • 微软免费课程,吴恩达亲自授课,为顶级生成式AI提供必备课程

    你已经准备好了吗?准备迎接新一轮的学习之旅 在当今盛行生成式 AI 的时代,你是否也为这项技术所倾倒,比如说只需输入简单的文字,短暂的瞬间,一个精美的图片或是流畅的文字就会呈现在你眼前 许多人都认为生成式人工智能是深不可测的,没有系统的课程讲解就难以理解其精髓。如果有科技公司或知名学者来协助完成这项…

    2025年12月1日 科技
    000
  • 中国科学院研究团队发布了两篇重要论文:首个跨物种生命基础大模型问世,以及新型细胞命运预测AI模型的发布

    作者 | 中国科学院多学科交叉研究团队 编辑 | ScienceAI 被称为20世纪人类三大科学计划之一的人类基因组计划,拉开了深度解析生命奥秘的序幕。由于生命过程具有多维度、高度动态的特点,传统实验研究手段难以系统精准地破解基因密码的底层共性规律,亟需运用强大的计算技术来实现基因数据的表征建模与知…

    2025年12月1日 科技
    000
  • Linux入门必备指令

    前言:   从今天开始,我们将进入Linux的学习,想要学好Linux,指令一定是不可忽略的重要部分,那么话不多说,进入今天的正题! 一、ls指令 常用选项: -a 列出目录下所有文件,包括以 . 开头的隐含文件。 -b 将目录像文件一样显示,而不是显示其下的文件。如:ls -d 指定目录。 -i …

    2025年11月29日 运维
    000
  • [教程]MongoDB 从入门到进阶 (TextSearch)

    随着MongoDB 2.4.1的发布(由于2.4.0刚发布就发现一个重大的Bug,所以现在的最新版本是2.4.1),全文检索的功能也被追加进MongoDB了。不过全文检索功能现在仅仅能够用于对于拉丁文的检索。 1.首先要使用MongoDB2.4.1,请先到官网下载最新版的MongoDB 2.如果 随…

    2025年11月28日 数据库
    000
  • MongoDB从入门到提高【第二集】———MongdoDB权限设置

    前集回顾 上一集我们讲到了MongoDB的安装,以及常用的配置文件,一般用于开发的话,我的配置文件已经够用了。之所以选择MongoDB,究其原因,别的不说单单一个,安装分分种事情,这就是好处,卸载就更方便了,其余的优点不说大家也知道。呵呵有点废话了。今天 前集回顾   上一集我们讲到了MongoDB…

    2025年11月28日 数据库
    000
  • C-Eval中文大模型最新榜单发布,云天励飞居榜首

    日前,c-eval%ignore_a_1%大模型榜单更新,云天励飞大模型以77.1的平均分位列榜单第一。(榜单目前有62个模型) ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向…

    2025年11月28日 科技
    000
  • 英特尔推出下一代数据中心CPU设计:Chiplet设计,性能提升达240%

    下一代英特尔芯片,要有巨大的性能提升。 每年一度的 Hot Chips 是半导体业界最重要的技术会议。在其中,芯片领域专家齐聚一堂,全球芯片厂商也经常选择在这里发布新产品,或是阐述未来的发展方向。 当地时间周一,在斯坦福大学举办的 Hot Chips 2023 上,英特尔首次披露了新一代数据中心芯片…

    2025年11月27日 科技
    000
  • 又一Sora级选手来炸街!我们拿它和Sora、可灵PK了下

    当sora「千呼万唤」不出来时,openai 的对手们却纷纷祭出大杀器来炸街。 Sora 再不开放使用,真的要被偷家了! 今日,旧金山初创公司 Luma AI 打出一手王牌,推出新一代 AI 视频生成模型 Dream Machine。人人免费可用。 据介绍,该模型能够根据简单的文本描述生成高质量、逼…

    2025年11月26日 科技
    000
  • AI出图更快、更美、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 随着大模型的落地按下加速键,文生图无疑是最火热的应用方向之一。 自从 Stable Diffusion 诞生以来,海内外的文生图大模型层出不穷,一时有「神仙打架」之感。短短几个月,「最强 AI …

    2025年11月26日 科技
    000
  • NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

    研究背景与挑战 在人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模型在某些任务上实现了统一,但在 OCR 领域的多数任务上仍难以达成全面整合。 例如,Monkey 等视觉语言模型(VLM)擅长文字检测、识…

    2025年11月26日 科技
    100
  • 吴恩达出手,开源最新Python包,一个接口调用OpenAI等模型

    在构建应用程序时,与多个提供商集成很麻烦,现在 aisuite 给解决了。 用相同的代码方式调用 OpenAI、Anthropic、Google 等发布的大模型,还能实现便捷的模型切换和对比测试。 刚刚,AI 著名学者、斯坦福大学教授吴恩达最新开源项目实现了。 ☞☞☞AI 智能聊天, 问答助手, A…

    2025年11月26日 科技
    000

发表回复

登录后才能评论
关注微信