中国科学院团队创造了一种统一框架,用于提高酶动力学参数的预测准确性

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

编辑 | 萝卜皮

酶动力学参数的预测对于生物技术和工业应用中酶的设计和优化至关重要,然而目前的预测工具在各种任务上的有限性能限制了它们的实际应用。

中国科学院的研究人员最近提出了UniKP,这是一个基于预训练语言模型的统一框架,可用于预测酶动力学参数,包括酶周转数(kcat)、米氏常数(Km)和催化效率(kcat/Km),这些参数是从蛋白质序列和底物结构中获得的。

还提出了基于UniKP (EF-UniKP) 的双层框架,能够在考虑环境因素(如 pH 值和温度)的情况下,稳定地预测 kcat 值。同时,研究团队还系统地探索了四种代表性的重新加权方法,成功地降低了高价值预测任务中的预测误差。

该研究题为《UniKP: a unified framework for the prediction of enzyme kinetic parameters》,于2023年12月11日在《Nature Communications》杂志上发表。

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

研究酶对特定底物的催化效率是生物学中的一个重要问题,对酶的进化、代谢工程和合成生物学具有深远影响。测量kcat和Km的体外实验数据,以及最大周转率和米氏常数,可以作为衡量酶催化特定反应效率的指标,用于比较不同酶的相对催化活性。

目前,酶动力学参数的测量主要依靠实验测量,耗时、成本高、劳动强度大,导致实验测量的动力学参数值数据库很小。例如,序列数据库 UniProt 包含超过 2.3 亿条酶序列,而酶数据库 BRENDA 和 SABIO-RK 包含数万个实验测量的 kcat 值。Uniprot 标识符在这些酶数据库中的集成促进了测量参数和蛋白质序列之间的连接。然而,与酶序列的数量相比,这些连接的规模仍然小得多,限制了定向进化和代谢工程等下游应用的进展。

酶动力学参数预测框架

在这项研究中,中国科学院的研究人员提出了一种名为UniKP的新框架,它基于预训练语言模型,旨在提高预测酶动力学参数的准确性。这些参数包括kcat、Km和kcat / Km,可以根据给定的酶序列和底物结构进行预测。研究人员对16种不同的机器学习模型和2种深度学习模型进行了全面比较,并发现UniKP在预测准确性方面表现出色。该研究有望为酶动力学领域的研究和应用提供新的工具和方法。

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

AI大学堂 AI大学堂

科大讯飞打造的AI学习平台

AI大学堂 87 查看详情 AI大学堂

图示:UniKP 概述。(来源:论文)

与之前最先进的模型 DLKcat 相比,UniKP 在 kcat 预测任务中表现出了卓越的性能,平均决定系数为 0.68,提高了 20%。研究人员推测,预训练模型通过使用整个数据库中的无监督信息创建易于学习的酶序列和底物结构表示,对 UniKP 的性能做出了巨大贡献。

对模型学习的分析表明,蛋白质信息具有主导作用,这可能是由于酶结构与底物结构相比的复杂性。此外,UniKP 可以有效捕获酶及其突变体之间 kcat 值的微小差异,包括实验测量的情况,这对于酶的设计和修饰至关重要。UniKP 预测值的 R^2 与 gmean 方法的 R^2 的高同一性区域和低同一性区域之间的差异证明了 UniKP 在提取更深层次的互连信息方面的能力,从而在这些任务中表现出更高的预测准确性。

两层框架 EF-UniKP

当前的大部分模型没有考虑环境因素,这是模拟真实实验条件的一个关键限制。为了解决这个问题,研究人员提出了一个两层框架 EF-UniKP,它考虑了环境因素。基于分别具有 pH 和温度信息的两个新构建的数据集,EF-UniKP 与初始 UniKP 相比显示出改进的性能。这是一个准确、高通量、独立于生物体且依赖于环境的 kcat 预测。此外,这种方法有可能扩展到包括其他因素,例如共底物和 NaCl 浓度。

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

图示:考虑环境因素的两层框架。(来源:论文)

然而,由于缺乏综合数据,现有模型并未考虑这些因素之间的相互作用。随着实验技术的进步,包括生物铸造实验室自动化和持续进化方法,研究人员预计酶动力学数据将激增。这种涌入不仅丰富了该领域,而且提高了预测模型的准确性。

由于 kcat 数据集的高度不平衡,导致高 kcat 值预测存在较高误差,该团队系统地探索了四种有代表性的重新加权方法来缓解这一问题。结果表明,每种方法的超参数设置对于改进高 kcat 值预测至关重要。

该团队证实了当前框架在米氏常数(Km)预测和 kcat / Km 预测方面的强通用性。UniKP 在预测 Km 值方面实现了最先进的性能,更令人印象深刻的是,在预测 kcat / Km 值方面优于当前最先进模型的综合结果。此外,研究人员基于实验测量的 kcat / Km 值以及使用 kcat / Km 数据集上的 kcat 和 Km 预测模型计算的 kcat / Km 值验证了 UniKP 框架。

值得注意的是,从 UniKP kcat / UniKP Km 得出的值与实验 kcat / Km 之间观察到的相关性相对较低(PCC = −0.01)。这种差异可能是由于构建各自模型时使用的不同数据集造成的,因此需要开发一个不同的模型来预测 kcat / Km 值。将来,随着包含 kcat 和 Km 值的统一数据集的出现,预计 kcat 和 Km 模型的计算输出将与 kcat / Km 专用模型生成的输出紧密一致。

在酶的挖掘和进化中具体应用

UniKP 在酪氨酸氨裂解酶 (TAL) 酶挖掘和定向进化中的应用,证明了其彻底改变合成生物学和生物化学研究的潜力。这项研究表明,UniKP 有效识别了高活性 TAL,并迅速提高了现有 TAL 的催化效率,RgTAL-489T 的 kcat / Km 值比野生型酶高出 3.5 倍。

此外,在考虑环境因素时,衍生框架 EF-UniKP 始终能够以极高的精度识别高活性 TAL 酶,来自 Tephrocybe rancida 的 TrTAL 的 kcat / Km 值比野生型酶高 2.6 倍。结果显示,5条序列的 kcat 和 kcat / Km 值均超过野生型酶。

通过加速酶的发现和优化过程,UniKP 有望成为推进生物催化、药物发现、代谢工程和其他依赖酶催化过程的领域的强大工具。

局限与展望

然而,当前版本的 UniKP 仍然存在一些限制。例如,虽然 UniKP 能够区分实验测量的酶及其变体的 kcat 值,但预测的 kcat 值不够准确。这可能是由于与已知蛋白质序列和底物结构的数量相比数据集不足。

虽然重新加权方法可以在一定程度上缓解由不平衡的 kcat 数据集引起的预测偏差(约 6.5% 的改进),但通过合成少数过采样技术和其他样本合成方法可以实现更显著的改进。

合成生物学的一个中心目标是开发数字细胞,它将彻底改变科学家研究生物学的方法。这项研究的一个关键先决条件是仔细确定途径内所有酶的酶参数。人工智能辅助的工具阐明了这一挑战,提供了一种预测酶动力学的高通量方法。

虽然与早期模型相比,UniKP 预测因子的误差减少了,但不准确仍然是构建精确代谢模型的重大障碍。纳入越来越多的实验确定的 kcat 和 Km 值可以提高模型的准确性。

接下来,研究人员打算结合最先进的算法,例如迁移学习、强化学习和其他小样本学习算法来有效处理不平衡数据集。并且,该团队的目标是探索更多应用,包括酶进化和生物体的全局分析。

论文链接:https://www.nature.com/articles/s41467-023-44113-1

以上就是中国科学院团队创造了一种统一框架,用于提高酶动力学参数的预测准确性的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/444632.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 20:14:42
下一篇 2025年11月7日 20:15:27

相关推荐

  • 北航打破模态壁垒,跨可见光-红外模态的通用物理对抗攻击方法来了

    近年来,针对视觉感知系统安全性评估的探索逐步深入,先后有研究者成功实现基于眼镜、贴纸、衣服等不同载体的可见光模态安全评估技术,也有一些针对红外模态的新尝试。但是它们都只能作用于单一模态。 随着人工智能技术的发展,可见光 – 热红外成像技术已同时应用于治安监控、自动驾驶等诸多安全关键任务中…

    2025年12月1日 科技
    000
  • 「场景控制传送门:四合一物体传送,上交&蚂蚁出品」

    在常见的图像编辑操作中,图像合成是指将一张图片的前景物体与另一张背景图片结合,生成一张合成图的过程。合成后的图像在视觉效果上类似于将前景物体从一张图片传送到另一张背景图片上,如下图所示 图像合成在艺术创作、海报设计、电子商务、虚拟现实、数据增广等领域被广泛使用 通过简单的剪切粘贴得到的合成图可能会存…

    2025年12月1日 科技
    000
  • 把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

    近年来,大语言模型(llm)及其底层的 transformer 架构已经成为了对话式 ai 的基石,并催生了广泛的消费级和企业应用程序。尽管有了长足的进步,但 llm 使用的固定长度的上下文窗口极大地限制了对长对话或长文档推理的适用性。即使是使用最广泛的开源 llm,它们的最大输入长度只允许支持几十…

    2025年12月1日 科技
    000
  • AMD与约翰霍普金斯大学联手:AI实验室copilot自动化科研,成本节约84%!

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 2049 科学研究,尤其是机器学习领域的研究,往往需要大量的时间和资源投入,从最初的构思到最终的结果产出,每一步都充满了挑战。 近年来,大型语言模型(Large Language Mo…

    2025年12月1日 科技
    000
  • 五个时间序列预测的深度学习模型对比总结

    Makridakis M-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。 2018年M4的结果表明,纯粹的…

    2025年11月27日 科技
    000
  • 机器学习为未来核聚变发电厂寻找合适的氢同位素组合

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 白菜叶 恒星的动力来源——核聚变——被提议作为人类未来的能源,并且可以提供清洁和可再生的能源,而无需与当前核裂变工厂相关的放射性废物。 就像从太阳溢出能量的聚变过程一样,未来的核聚变设…

    2025年11月27日 科技
    000
  • 10万美元+26天,一个低成本千亿参数LLM就诞生了

    包括仅解码器结构(如 GPT 和 LLAMA 系列模型)、仅编码器结构(如 BERT)和编码器 – 解码器结构(如 T5)以及它们的变体模型在内的大型语言模型(LLM)已经取得了非凡的成功,并已被广泛用于各种语言处理和多模态任务。 尽管如此成功,训练 LLM 的成本还是过于高昂,以至于仅…

    2025年11月27日 科技
    000
  • 【论文解读】基于图的自监督学习联合嵌入预测架构

    一、简要介绍 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 本文演示了一种学习高度语义的图像表示的方法,而不依赖于手工制作的数据增强。论文介绍了基于图像的联合嵌入预测架构(I-JEPA),这是一种用于从图像中进行自监督学习的非生成性方法。I…

    2025年11月26日 科技
    000
  • AI炼金术革新化学:MIT学者使用生成式AI,六秒生成新化学反应

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 需要重新书写的是:编辑 | 凯霞 化学从远古的「等价交换」炼金术开始,一直是一门研究和控制物质间相互作用的学科。通过不断解锁和利用新的化学反应,人们开发了许多新材料。这些新材料不仅为人们的生活带…

    2025年11月26日 科技
    000
  • AI4Science的基石:几何图神经网络,最全综述来了!人大高瓴联合腾讯AI lab、清华、斯坦福等发布

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | XS Nature 在 2023 年 11 月发表了两项重要研究成果:蛋白质合成技术 Chroma 和晶体材料设计方法 GNoME。这两项研究都采用了图神经网络作为处理科学数据的工具。…

    2025年11月26日 科技
    000
  • 多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 萝卜芯 预训练语言模型在分析核苷酸序列方面显示出了良好的前景,但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。 百度大数据实验室(Big Data Lab,BDL)…

    2025年11月26日 科技
    000
  • 微软发布首个大气AI基础模型Aurora

    编辑 | scienceai 在2023年11月,飓风“夏兰”(Ciarán)袭击欧洲西北部,造成严重破坏。与风暴Ciarán相关的低压系统为英格兰创下了新纪录,这是一次极为罕见的气象事件。 那场风暴的强度让许多人措手不及,暴露了当前天气预报模型的局限性,并突显出面对气候变化需要更准确的预测。当大家…

    2025年11月26日 科技
    100
  • AI小分子药物发现的「百科全书」,康奈尔、剑桥、EPFL等研究者综述登Nature子刊

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 作者 | 康奈尔大学杜沅岂 编辑 | ScienceAI 随着 AI for Science 受到越来越多的关注,人们更加关心 AI 如何解决一系列科学问题并且可以被成功借鉴到其他相近的领域。 …

    2025年11月26日 科技
    000
  • 高效且准确,郑州大学团队开发新AI工具识别药物-靶标相互作用

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 枯叶蝶 准确识别药物-靶标相互作用(DTI)是药物发现和药物重新定位过程中的关键步骤之一。 目前,许多基于计算的模型已被提出,用于预测 DTI,并取得了一些显著的进步。 然而,这些方法…

    2025年11月26日 科技
    100
  • Llama分子嵌入优于GPT,LLM能理解分子吗?这一局Meta赢了OpenAI

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 萝卜皮 OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型(LLM)因其在化学信息学领域的潜力而日益受到认可,特别是在理解简化分子输入行输入系统(SMILES…

    2025年11月26日 科技
    000
  • 通过深度学习预测离散时间分岔

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 白菜叶许多自然和人造系统都容易发生关键转变——动态方面的突然且可能具有破坏性的变化。深度学习分类器可以通过从大型模拟训练数据集中学习分叉的通用特征,为关键转变提供预警信号。到目前为止,…

    2025年11月26日 科技
    000
  • CVPR 2024 | 自动驾驶世界模型四维时空预训练

    北京大学与evlo创新团队共同提出面向自动驾驶的四维时空预训练算法driveworld。该方法采用世界模型进行预训练,设计记忆状态空间模型进行四维时空建模,通过预测场景的占据栅格,降低自动驾驶面临的随机不确定性和知识不确定性。该论文已被cvpr 2024接收。 ☞☞☞AI 智能聊天, 问答助手, A…

    2025年11月26日 科技
    000
  • 筛选数十亿化合物库,华盛顿大学药物AI虚拟筛选平台,登Nature子刊

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | KX 基于结构的虚拟筛选在药物发现中发挥着重要作用,科学家对数十亿种化合物库的筛选越来越感兴趣。 但只有少数的筛选取得成功,此外,对于基于物理的对接方法而言,对整个超大型库进行虚拟筛选…

    2025年11月26日 科技
    100
  • 从预测风暴到设计分子,微软的 AI 基础模型如何加速科学发现

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | ScienceAI 人们总是在寻找规律来解释宇宙,并预测未来。俗话说,「朝霞不出门,晚霞行千里」,人们常常用它来预测天气。 AI 非常擅长发现模式并进行预测。现在,微软研究人员正在尝试…

    2025年11月26日 科技
    000
  • 诺奖颁给交叉学科,对「AI for Science」意味着什么?

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 诺贝尔物理学奖授予 AI 科学家 编辑 | X_X 2024 年 10 月 8 日,诺贝尔物理学奖授予了两位人工智能(AI)领域的科学家以表彰他们的发现。 诺贝尔奖评审团表示,被誉为「人工智能教…

    2025年11月26日 科技
    000

发表回复

登录后才能评论
关注微信