预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

预测精度高达0.98,清华、深势科技等提出基于transformer的mof材料多功能预测框架

编辑 | X

气体分离在工业生产和环境保护中扮演着关键角色,金属有机框架(MOF)凭借其独特性能,在气体分离领域展现出巨大潜力。

传统的模拟方法,比如分子动力学,虽然复杂且计算量要求高,但在模拟系统行为方面具有很高的准确性。与之相比,基于特征工程的机器学习方法在处理复杂系统时表现更出色,然而由于标记数据的稀缺性,很容易导致过度拟合的问题。此外,这些机器学习方法通常是为了解决单一任务而设计的,缺乏对多任务学习的支持。因此,在选择合适的方法时,需要权衡精确性、数据要求和任务复杂性等因素,以找到最适合特定问题的解决方案。

为了应对这些挑战,由清华大学、加州大学、中山大学、苏州大学、深势科技和北京科学智能研究院(AI for Science Institute,Beijing,AISI) 组成的多机构团队,合作提出了 Uni-MOF,一种用于大规模三维 MOF 表示学习的创新框架,专为多用途气体预测而设计。Uni-MOF 既适合科学研究又适合实际应用。

Uni-MOF可被视为MOF材料的多功能气体吸附预测器,在模拟数据方面展现出卓越的预测准确性,标志着机器学习在气体吸附研究中的重要应用。

该研究以「A comprehensive transformer-based approach for high-accuracy gas adsorption predictions in metal-organic frameworks」为题,于 2024 年 3 月 1 日发布在《Nature Communications》上。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

论文链接:https://www.nature.com/articles/s41467-024-46276-x

需要一个统一的吸附框架

金属有机框架(MOF)因其可调节的结构特性和化学成分被广泛应用于气体分离等领域。

虽然 MOF 在气体吸附方面的潜力很大,但准确预测其吸附容量仍然是一个挑战。

分子动力学、蒙特卡罗(MC)等计算方法,计算成本高且实施复杂,限制了它们在大规模、多气体和高通量计算。此外,气体吸附的操作条件范围广,使预测变得更加复杂。

图神经网络和 Transformers 已被证明可以成功预测 MOF 属性。

尽管现有的预测吸附特性的模型具有高性能和强大的预测能力,但它们通常是为单一任务而设计的,特别是预测特定条件下特定气体的吸附吸收率。然而,这些单一任务预测的可用数据集通常是有限的,从而阻碍了模型的通用性。

另一方面,来自不同温度和压力环境下的各种吸附气体的标记数据的组合可以创建适合整个工作条件下训练的大量数据集。增加的数据量还可以增强模型的泛化能力,并改善其实际工业用途。因此,需要一个统一的吸附框架来推进这些模型。

此外,针对大规模未标记 MOF 结构集成表示学习,或预训练,可以进一步提高模型性能和表示能力。

Uni-MOF 框架:既适合科学研究又适合实际应用

受此启发,研究团队提出 Uni-MOF 框架作为一种多用途解决方案,使用结构表示学习来预测不同条件下 MOF 的气体吸附。

与其他基于 Transformer 的模型(例如 MOFormer 和 MOFTransformer)相比,Uni-MOF 作为基于 Transformer 的框架,不仅可以在预训练中识别和恢复纳米多孔材料的三维结构,从而大大提高了纳米多孔材料的稳健性。而且微调任务还进一步考虑了温度、压力和不同气体分子等操作条件,这使得 Uni-MOF 既适合科学研究又适合实际应用。

Uni-MOF 作为 MOF 材料的综合气体吸附估计器,仅需要 MOF 的晶体信息文件 (CIF) 以及相关气体、温度和压力参数,就可以在广泛的操作条件下预测纳米多孔材料的气体吸附特性。Uni-MOF 框架易于使用并允许模块选择。

此外,通过将各种跨系统吸收标记数据与大量未标记结构数据的表示学习相结合,有效解决了过度拟合的问题。这弥补了高质量数据和数据不足的不足,最终提高了气体吸附预测的准确性。

Uni-MOF 框架实现了原子级别的材料识别精度,而集成模型使 Uni-MOF 更适用于工程问题。毫无疑问,实现真正统一的模型是材料领域未来的方向,而不仅仅是专注于专业领域。Uni-MOF 是机器学习在气体吸附领域的开创性实践。

Uni-MOF 框架概述

Uni-MOF 框架包括三维纳米多孔晶体的预训练和下游应用中多任务预测的微调。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 1:Uni-MOF 框架的示意图。(来源:论文)

三维晶体材料的预训练显著增强了下游任务的预测性能,特别是对于大规模未标记数据。

为了解决训练数据集监督不充分的问题,研究人员收集了大量的 MOF 结构数据集,并使用 ToBaCCo.3.0 生成了超过 300,000 个 MOF。基于材料基因组策略和准反应组装算法 (QReaxAA) 的 COF 的高通量构建是可行的,从而建立一个全面的 COF 库。通过材料的空间构型,Uni-MOF 能够很好地学习材料的结构特性,最重要的是化学键信息。

为了使 Uni-MOF 能够学习更多样化的材料,从而提高对更广泛材料的泛化能力,在预训练过程中通过虚拟和实验方式引入了 MOF 和 COF。与 BERT 和 Uni-Mol 中的掩蔽标记任务类似,Uni-MOF 采用掩蔽原子的预测任务,从而促进预训练模型深入了解材料空间结构。

为了增强预训练的稳健性并推广学习到的表示,研究人员向 MOF 的原始坐标引入了噪声。在预训练阶段,设计了两个任务。(1)从噪声数据中重建原始三维位置,(2)预测屏蔽原子。这些任务可以增强模型的稳健性并提高下游预测性能。

除了多样化的空间构型之外,一套全面的材料属性数据点对于模型训练也至关重要。为了丰富数据集,研究人员建立了自定义数据生成流程(如图 1b 所示)。

Uni-MOF 的微调基于通过预训练获取的表示的提取,以及使用自制工作流程生成和收集大量数据集。在微调过程中,使用 MOF 和 COF 各种吸附条件下的约 3,000,000 个标记数据点来训练模型,从而能够准确预测吸附容量。

凭借跨系统目标数据的多样化数据库,经过微调的 Uni-MOF 可以预测 MOF 在任意状态下的多系统吸附特性。因此,Uni-MOF 是一个统一且易于使用的框架,用于预测 MOF 吸附剂的吸附性能。

最重要的是,Uni-MOF 无需额外的人工来识别人类定义的结构特征。相反,MOF 的 CIF 以及相关气体、温度和压力参数就足够了。自监督学习策略和丰富的数据库确保 Uni-MOF 能够预测纳米多孔材料在各种操作参数下的气体吸附特性,从而使其成为一种熟练的 MOF 材料气体吸附估计器。

预测精度高达 0.98,可跨系统预测

该研究对包含超过 631,000 个 MOF 和 COF 的数据库进行了自监督学习,预测精度高达 0.98。这表明基于三维预训练的表示学习框架有效地学习了 MOF 的复杂结构信息,同时避免了过拟合。

应用 Uni-MOF 对三大数据库(hMOF_MOFX-DB,CoRE_MOFX-DB 和 CoRE_MAP_DB)的气体吸附性能进行了预测,在数据充足的数据库中取得了高达 0.98 的预测精度。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 2:Uni-MOF 在大规模数据库中的整体性能。(来源:论文)

在数据集充分采样的情况下,Uni-MOF 不仅保持了 0.83 以上的预测精度,而且仅通过预测低压下的吸附,就能准确选择高压下的高性能吸附剂,与实验筛选结果一致。因此,Uni-MOF 代表了材料科学领域在机器学习技术应用方面的重大突破。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 3:基于低压预测和高压实验值的吸附等温线,每条曲线代表 Langmuir 拟合。(来源:论文)

此外,与单系统任务相比,Uni-MOF 框架在跨系统数据集上表现出优越的性能,可以准确预测未知气体的吸附特性,预测精度高达 0.85,展示了其强大的预测能力和通用性。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

华文笔杆 华文笔杆

写材料用华文,华文笔杆帮你搞定公文写作

华文笔杆 491 查看详情 华文笔杆

图 4:Uni-MOF 跨系统预测案例。(来源:论文)

研究表明,预训练的自监督学习策略可以有效提高 Uni-MOF 的稳健性和下游预测性能。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 5:Uni-MOF 和 Uni-MOF 无预训练比较。(来源:论文)

通过对三维结构进行广泛的预训练,Uni-MOF 有效地学习了 MOF 的结构特征,实现了 hMOF 的 0.99 的高决定系数。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 6:结构特征预测与分析。(来源:论文)

此外,t-SNE(t 分布随机邻域嵌入)分析证实,微调阶段可以进一步学习结构特征,并且可以很好地识别具有不同吸附物行为的结构,这表明学习的表示与气体吸附目标之间存在很强的相关性。

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

图 7:hMOF 和 CoRE_MOF 数据集中 MOF 结构表示的可视化,低维嵌入通过 t-SNE 方法计算。(来源:论文)

总之,Uni-MOF 框架作为 MOF 材料的多功能预测平台,充当 MOF 的气体吸附估计器,在预测不同操作条件下的气体吸附方面具有很高的精度,在材料科学领域具有广泛的应用前景。

以上就是预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/620905.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 06:27:33
下一篇 2025年11月11日 06:29:14

相关推荐

  • 北航打破模态壁垒,跨可见光-红外模态的通用物理对抗攻击方法来了

    近年来,针对视觉感知系统安全性评估的探索逐步深入,先后有研究者成功实现基于眼镜、贴纸、衣服等不同载体的可见光模态安全评估技术,也有一些针对红外模态的新尝试。但是它们都只能作用于单一模态。 随着人工智能技术的发展,可见光 – 热红外成像技术已同时应用于治安监控、自动驾驶等诸多安全关键任务中…

    2025年12月1日 科技
    000
  • 「场景控制传送门:四合一物体传送,上交&蚂蚁出品」

    在常见的图像编辑操作中,图像合成是指将一张图片的前景物体与另一张背景图片结合,生成一张合成图的过程。合成后的图像在视觉效果上类似于将前景物体从一张图片传送到另一张背景图片上,如下图所示 图像合成在艺术创作、海报设计、电子商务、虚拟现实、数据增广等领域被广泛使用 通过简单的剪切粘贴得到的合成图可能会存…

    2025年12月1日 科技
    000
  • 把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

    近年来,大语言模型(llm)及其底层的 transformer 架构已经成为了对话式 ai 的基石,并催生了广泛的消费级和企业应用程序。尽管有了长足的进步,但 llm 使用的固定长度的上下文窗口极大地限制了对长对话或长文档推理的适用性。即使是使用最广泛的开源 llm,它们的最大输入长度只允许支持几十…

    2025年12月1日 科技
    000
  • AMD与约翰霍普金斯大学联手:AI实验室copilot自动化科研,成本节约84%!

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 2049 科学研究,尤其是机器学习领域的研究,往往需要大量的时间和资源投入,从最初的构思到最终的结果产出,每一步都充满了挑战。 近年来,大型语言模型(Large Language Mo…

    2025年12月1日 科技
    000
  • 五个时间序列预测的深度学习模型对比总结

    Makridakis M-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。 2018年M4的结果表明,纯粹的…

    2025年11月27日 科技
    000
  • 机器学习为未来核聚变发电厂寻找合适的氢同位素组合

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 白菜叶 恒星的动力来源——核聚变——被提议作为人类未来的能源,并且可以提供清洁和可再生的能源,而无需与当前核裂变工厂相关的放射性废物。 就像从太阳溢出能量的聚变过程一样,未来的核聚变设…

    2025年11月27日 科技
    000
  • 10万美元+26天,一个低成本千亿参数LLM就诞生了

    包括仅解码器结构(如 GPT 和 LLAMA 系列模型)、仅编码器结构(如 BERT)和编码器 – 解码器结构(如 T5)以及它们的变体模型在内的大型语言模型(LLM)已经取得了非凡的成功,并已被广泛用于各种语言处理和多模态任务。 尽管如此成功,训练 LLM 的成本还是过于高昂,以至于仅…

    2025年11月27日 科技
    000
  • 【论文解读】基于图的自监督学习联合嵌入预测架构

    一、简要介绍 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 本文演示了一种学习高度语义的图像表示的方法,而不依赖于手工制作的数据增强。论文介绍了基于图像的联合嵌入预测架构(I-JEPA),这是一种用于从图像中进行自监督学习的非生成性方法。I…

    2025年11月26日 科技
    000
  • AI炼金术革新化学:MIT学者使用生成式AI,六秒生成新化学反应

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 需要重新书写的是:编辑 | 凯霞 化学从远古的「等价交换」炼金术开始,一直是一门研究和控制物质间相互作用的学科。通过不断解锁和利用新的化学反应,人们开发了许多新材料。这些新材料不仅为人们的生活带…

    2025年11月26日 科技
    100
  • AI4Science的基石:几何图神经网络,最全综述来了!人大高瓴联合腾讯AI lab、清华、斯坦福等发布

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | XS Nature 在 2023 年 11 月发表了两项重要研究成果:蛋白质合成技术 Chroma 和晶体材料设计方法 GNoME。这两项研究都采用了图神经网络作为处理科学数据的工具。…

    2025年11月26日 科技
    000
  • 多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 萝卜芯 预训练语言模型在分析核苷酸序列方面显示出了良好的前景,但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。 百度大数据实验室(Big Data Lab,BDL)…

    2025年11月26日 科技
    000
  • 微软发布首个大气AI基础模型Aurora

    编辑 | scienceai 在2023年11月,飓风“夏兰”(Ciarán)袭击欧洲西北部,造成严重破坏。与风暴Ciarán相关的低压系统为英格兰创下了新纪录,这是一次极为罕见的气象事件。 那场风暴的强度让许多人措手不及,暴露了当前天气预报模型的局限性,并突显出面对气候变化需要更准确的预测。当大家…

    2025年11月26日 科技
    100
  • AI小分子药物发现的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 作者 | 康奈尔大学杜沅岂 编辑 | ScienceAI 随着 AI for Science 受到越来越多的关注,人们更加关心 AI 如何解决一系列科学问题并且可以被成功借鉴到其他相近的领域。 …

    2025年11月26日 科技
    000
  • 高效且准确,郑州大学团队开发新AI工具识别药物-靶标相互作用

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 枯叶蝶 准确识别药物-靶标相互作用(DTI)是药物发现和药物重新定位过程中的关键步骤之一。 目前,许多基于计算的模型已被提出,用于预测 DTI,并取得了一些显著的进步。 然而,这些方法…

    2025年11月26日 科技
    100
  • Llama分子嵌入优于GPT,LLM能理解分子吗?这一局Meta赢了OpenAI

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 萝卜皮 OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型(LLM)因其在化学信息学领域的潜力而日益受到认可,特别是在理解简化分子输入行输入系统(SMILES…

    2025年11月26日 科技
    000
  • 通过深度学习预测离散时间分岔

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 白菜叶许多自然和人造系统都容易发生关键转变——动态方面的突然且可能具有破坏性的变化。深度学习分类器可以通过从大型模拟训练数据集中学习分叉的通用特征,为关键转变提供预警信号。到目前为止,…

    2025年11月26日 科技
    000
  • CVPR 2024 | 自动驾驶世界模型四维时空预训练

    北京大学与evlo创新团队共同提出面向自动驾驶的四维时空预训练算法driveworld。该方法采用世界模型进行预训练,设计记忆状态空间模型进行四维时空建模,通过预测场景的占据栅格,降低自动驾驶面临的随机不确定性和知识不确定性。该论文已被cvpr 2024接收。 ☞☞☞AI 智能聊天, 问答助手, A…

    2025年11月26日 科技
    000
  • 筛选数十亿化合物库,华盛顿大学药物AI虚拟筛选平台,登Nature子刊

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | KX 基于结构的虚拟筛选在药物发现中发挥着重要作用,科学家对数十亿种化合物库的筛选越来越感兴趣。 但只有少数的筛选取得成功,此外,对于基于物理的对接方法而言,对整个超大型库进行虚拟筛选…

    2025年11月26日 科技
    100
  • 从预测风暴到设计分子,微软的 AI 基础模型如何加速科学发现

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | ScienceAI 人们总是在寻找规律来解释宇宙,并预测未来。俗话说,「朝霞不出门,晚霞行千里」,人们常常用它来预测天气。 AI 非常擅长发现模式并进行预测。现在,微软研究人员正在尝试…

    2025年11月26日 科技
    000
  • 诺奖颁给交叉学科,对「AI for Science」意味着什么?

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 诺贝尔物理学奖授予 AI 科学家 编辑 | X_X 2024 年 10 月 8 日,诺贝尔物理学奖授予了两位人工智能(AI)领域的科学家以表彰他们的发现。 诺贝尔奖评审团表示,被誉为「人工智能教…

    2025年11月26日 科技
    000

发表回复

登录后才能评论
关注微信