从预测风暴到设计分子,微软的 AI 基础模型如何加速科学发现

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

从预测风暴到设计分子,微软的 ai 基础模型如何加速科学发现

编辑 | ScienceAI

人们总是在寻找规律来解释宇宙,并预测未来。俗话说,「朝霞不出门,晚霞行千里」,人们常常用它来预测天气。

AI 非常擅长发现模式并进行预测。现在,微软研究人员正在尝试将「基础模型」应用于科学领域。

材料科学、气候科学、医疗保健和生命科学等科学学科有望通过 AI 取得进步。专家表示,针对这些学科量身定制的基础模型将加快科学发现的进程,使他们能够更快地创造出实用的东西,如药物、新材料或更准确的天气预报,同时也能更好地了解原子、人体或地球。

「AI 是你工具箱中可以为你提供支持的工具,」微软研究院 AI for Science 实验室的合伙人兼副主任 Bonnie Kruft 说。「我们的理念是,专注于科学特定的模型,而不是语言特定的模型。我们看到了这个绝佳的机会,可以超越传统的基于人类语言的大型模型,进入一个新的范式,利用数学和分子模拟创建一个更强大的模型,用于科学发现。」

从预测风暴到设计分子,微软的 AI 基础模型如何加速科学发现

AI 的进步使得人们可以通过简单的对话提示来策划聚会或生成 PPT,或立即获得他们错过的会议的摘要。

现在,微软研究人员正在发现这些相同的 AI 架构和方法如何能够推动科学发现领域的进步。

传统上,科学发现涉及提出假设、进行测试、多次迭代以进行调整,直到找到解决方案或重新开始,这是一个淘汰无效方法的过程。相比之下,一些基础模型则颠倒了这一过程,它们不是消除而是构建。科学家可以向基础模型提供参数,例如他们想要的特性,而模型则可以预测,例如哪些分子组合可能有效。与其在稻草堆中寻找一根针,模型会直接建议如何制造针。

在某些情况下,这些基础模型也被设计为能够理解自然语言,这使得科学家们编写提示变得十分容易。例如,为了寻找一种新的材料,科学家们可能会指定他们想要一种稳定的分子(不会分解),不具有磁性,不导电,也不稀有或昂贵。

LLMs 是基于文本(单词)进行训练的,但微软研究人员一直在开发的旨在推进发现的基础模型主要基于科学语言进行训练,而不仅仅是科学教科书和研究报告,还包括从解决物理或化学方程式中产生的大量数据。

从预测风暴到设计分子,微软的 AI 基础模型如何加速科学发现

基础模型的应用都很广泛,材料模型并不是试图发现一种材料,而是多种材料,大气模型不仅仅是预测降雨,还包括污染等其他现象。这种多面性是将 AI 模型定义为基础模型的关键。目标是最终将多个模型融合在一起,从而创建更广泛的模型,因为在其他领域,更广泛、更多样化的模型比更狭窄的模型表现更好。

用于新材料发现的 MatterGen

发现新材料似乎是一个狭窄的领域,但事实上,它是研发的一大重点,因为材料种类繁多——合金、陶瓷、聚合物、复合材料、半导体,而且原子可能组合成新分子的数量达数十亿。新材料对于减少碳排放的影响以及找到危害环境或健康的材料的安全替代品至关重要。

微软研究院的 MatterGen 基础模型「实际上可以直接生成满足你的设计条件的材料」,英国剑桥微软研究院首席研究员 Tian Xie 说。科学家不仅可以告诉 MatterGen 他们想要创造的材料类型,还可以规定机械、电气、磁性和其他特性。

「它为材料科学家提供了一种方法,让他们可以针对他们想要设计的材料类型提出更好的假设。」Tian Xie 说。

从预测风暴到设计分子,微软的 AI 基础模型如何加速科学发现

图示:使用 MatterGen 进行无机材料设计。

论文链接:https://arxiv.org/abs/2312.03687

Tian Xie 说,这比过去的方法更先进,因为 AI 在生成材料方面的效率比筛选数百万种潜在组合以找到符合科学家标准的组合高出三到五个数量级。MatterGen 从科学家的标准开始构建解决方案,而不是从每一种可能性开始,一遍又一遍地筛选,直到剩下少数符合科学家标准的潜在组合。Tian Xie 说,这比在实验室里通过反复试验创造新材料要高效得多,也更经济,尽管合成新材料候选物的实验室工作是必要的。

MatterGen 是一种扩散模型,是一种已用于图像创建工具的 AI 架构。MatterGen 不是生成图片,而是生成新材料的分子。数十年甚至数百年实验积累的所有数据都太少,不足以训练基础模型。但由于物理和化学等科学领域遵循完善的数学方程,因此多次计算这些方程会产生必要数量的高质量训练数据。该团队使用一种称为密度泛函理论的量子力学公式在高性能计算上运行,为 MatterGen 创建了训练数据,生成了大约 600,000 个结构。

微软的 MatterGen 研究团队正在与合作伙伴合作,验证其生成的一些材料。未来的领域包括回收聚合物的方法,以及创建可用于碳捕获的金属有机框架。「到目前为止,我们专注于无机材料,但在未来,我们希望将其扩展到更复杂的材料。」Tian Xie 说。

MatterSim 用于预测新材料将如何发挥作用

即使借助人工智能,创造新材料也不是一个简单的过程。MatterSim 是 MatterGen 的配套产品,可以模拟或预测新材料分子的行为方式。如果结果不是科学家想要的,他们可以使用 MatterGen 进行迭代循环,像调整 Microsoft Copilot 提示一样调整输入,直到结果满足科学家的要求。然而,与 MatterGen 不同的是,MatterSim 不是生成性 AI,而是一个确定分子在不同温度和压力下如何表现的模拟器

从预测风暴到设计分子,微软的 AI 基础模型如何加速科学发现

图示:MatterSim 是一种深度学习原子模型,用于预测材料在化学元素、温度和压力方面的特性,具有很高的预测精度,具有广泛的适用性和功能性。

论文链接:https://arxiv.org/abs/2405.04967

爱派AiPy 爱派AiPy

融合LLM与Python生态的开源AI智能体

爱派AiPy 1 查看详情 爱派AiPy

MatterSim 使用 Graphormer 架构,该架构基于 Transformer 的基本思想 – 类似于 LLM,它将单词或句子分解以学习预测句子中的下一个单词 – 但由微软研究院针对材料的行为和属性而创建。

「它经过训练,可以掌握原子的语言。」上海微软人工智能研究院首席研究员陆子恒说,「预测材料的行为对化学家来说至关重要。更重要的是,模型掌握原子的语言——从整个元素周期表中学习。分子在嵌入空间中是什么样子的?如何将分子结构转换成机器可以理解的向量?这是 MatterSim 除了预测材料特性的能力之外最重要的事情。」

该模型采用主动学习,类似于学生备考的方式。当模型获得新的数据时,它会判断是否不确定。如果不确定,这些数据就会进入模拟,重新训练模型,就像学生学习他们还不了解的科目部分,而不是他们已经学过的部分一样。

关于分子行为的数据非常少,因此该团队使用量子力学计算来创建合成数据,类似于 MatterGen 的示例。

该结果比任何以前的模型都准确十倍,「因为我们能够生成涵盖前所未有的材料空间的数据。」陆子恒说,「这使得模型非常准确。」

目前,MatterSim 专注于无机材料,但以后可能会添加其他种类的材料。「MatterSim 是一个特定领域的基础模型。AI for Science 的研究人员正在朝着一个统一的大型基础模型迈进,该模型能够理解整个科学语言,如分子、生物分子、DNA、材料、蛋白质——所有这些以后都可能统一,但对于 MatterSim 来说,目前我们统一的是整个元素周期表。」陆子恒说。

Aurora 用于大气预报

计算机长期以来对于天气预报一直发挥着至关重要的作用,它通过计算物理或流体动力学方程中的数字来模拟大气系统。

「现在,人工智能和基础模型带来了完全不同的新机遇,」微软阿姆斯特丹研究院人工智能首席研究员 Paris Perdikaris 表示,「让我们走出去观察世界,收集尽可能多的数据。然后,让我们训练一个可以处理这些数据、从这些数据中提取模式并预测天气等的人工智能系统。」

从预测风暴到设计分子,微软的 AI 基础模型如何加速科学发现

图示:可用于高分辨率预报天气和大气过程的基础模型 Aurora。

论文链接:https://arxiv.org/abs/2405.13063

人工智能的一大优势在于,一旦训练完成,就不需要很大的计算能力。

Perdikaris 说,目前,使用全天候运行的超级计算机生成 10 天的天气预报大约需要两个小时。

从预测风暴到设计分子,微软的 AI 基础模型如何加速科学发现

图示:右侧地球仪显示的是 Aurora 的天气预报,而左侧地球仪显示的是实际测量的天气状况。

Aurora 是微软的大气科学基础模型,它使用配备 GPU 的普通台式计算机,在几秒钟内就能完成这项工作。「人工智能方法带来的主要不同在于计算效率和降低获取这些预测的成本。」他说。

Aurora 的准确性也得到了提高,因为它不仅使用基于物理的模型数据,还使用来自卫星、气象站和其他来源的真实数据,「这些数据更真实地反映了现实情况。」他说,「由于可以接触到所有这些不同的信息源,Aurora 有机会将它们融合在一起,并产生比我们现有的传统模拟工具更准确的预测。」

Aurora 是一个视觉 Transformer,它基于 1.2 PB 的数据进行训练,这大约是互联网上所有文本内容体量的十倍。「这仍然是描述地球系统的一小部分数据。」Perdikaris 说。

三个典型的天气问题——未来十分钟这里会下雨吗?未来十天全球各地的天气会如何?未来几个月甚至几年的天气变化会如何?到目前为止,都是由不同的预测模型处理的。Aurora 及其未来的扩展将能够使用同一模型回答所有这些问题。

Aurora 是基于天气数据进行训练的,但通过利用大气化学数据进行微调,该模型也可以预测大气污染情况。

「我们最初的假设之一是,我们可以利用模型从天气中学到的知识,并尝试将其应用于受不同物理现象(如大气化学)控制的新任务,然后看看效果如何。」Perdikaris 说,「令我们惊讶的是,它确实有效,并给出了一些非常有希望的初步结果。」

人工智能对污染预测的好处更加明显,要知道,目前污染预测的成本比天气预测高十倍。

让科学发现更加容易

陆子恒指出,这些模型可以让科学对学生更有吸引力。当他攻读学位时,他必须写出方程式,「但现在有了这些模拟,我们实际上可以使用计算机或笔记本电脑进行统计。你可以在屏幕上实时看到反应、分子和材料的行为。它让你非常清楚地了解实际发生的情况,而不仅仅是看纸上的方程式。」

基础模型有潜力改变日常生活并革新行业。通过加速科学发现,它们不仅有望推动医学和材料等领域的快速进步,而且还能为原子、分子和蛋白质等复杂系统提供更深入的见解,Kruft 说,这反过来又为各个行业开辟了巨大的商业可能性。

相关内容:https://news.microsoft.com/source/features/ai/from-forecasting-storms-to-designing-molecules-how-new-ai-foundation-models-can-speed-up-scientific-discovery/

以上就是从预测风暴到设计分子,微软的 AI 基础模型如何加速科学发现的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/789496.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力
上一篇 2025年11月26日 13:45:08
如何预约同安空调维修服务(方便快捷预约同安空调维修服务的方法)
下一篇 2025年11月26日 13:45:57

相关推荐

  • Golang JSON序列化:控制敏感字段暴露的最佳实践

    本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…

    2026年5月10日
    000
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

    SFINAE 是“替换失败不是错误”的原则,指模板实例化时若参数替换导致错误,只要存在其他合法候选,编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景,如通过 decltype 或 enable_if 控制函数重载,实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

    2026年5月10日
    000
  • Go语言mgo查询构建:深入理解bson.M与日期范围查询的正确实践

    本文旨在解决go语言mgo库中构建复杂查询时,特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性,解释为何直接索引`interface{}`会导致“invalid operation”错误,并提供一种推荐的、结构清晰的代码重构方案,以确保查询条件能够正确…

    2026年5月10日
    100
  • Golang goroutine与channel调试技巧

    使用go run -race检测数据竞争,结合runtime.NumGoroutine监控协程数量,通过pprof分析阻塞调用栈,利用select超时避免永久阻塞,有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心,但它们也带来了调试上…

    2026年5月10日
    000
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • 《魔兽世界》将于6月11日开启国服回归技术测试

    《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试

    《%ign%ignore_a_1%re_a_1%》官方宣布,将于6月11日开启国服回归技术测试,时间为7天,并称可以在6月内正式开服,玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端,技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情 以上就是《…

    2026年5月10日 用户投稿
    200
  • 如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

    HTML表单通过标签构建,包含action和method属性定义数据提交目标与方式,常用input类型如text、password、email等适配不同输入需求,配合label、required、placeholder提升可用性,结合textarea、select、button等控件实现完整交互,是…

    2026年5月10日
    000
  • 创建指定大小并填充特定数据的Golang文件教程

    本文将介绍如何使用Golang创建一个指定大小的文件,并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件,从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件,并将其填充为全零数据。掌握这些方法,可以方便地在例如日志系统或磁盘队列等场景中,预先创建测试文件或初始…

    2026年5月10日
    000
  • Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

    使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…

    2026年5月10日
    000
  • 如何插入查询结果数据_SQL插入Select查询结果方法

    如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法

    使用INSERT INTO…SELECT语句可高效插入数据,通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复;表结构不一致时可通过别名、类型转换、默认值或计算字段处理;结合存储过程可提升可维护性,支持参数化与动态SQL。 将查询结果数据插入到另一个表中,可以…

    2026年5月10日 用户投稿
    000
  • 使用 WebCodecs VideoDecoder 实现精确逐帧回退

    本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时,实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳,可以避免渲染中间帧,从而提高用户体验。本文将提供详细的解决方案和示例代码,帮助开发者实现精确的视频帧控制。 在使用 WebCodecs VideoDecod…

    2026年5月10日
    000
  • Debian Copilot的社区活跃度如何

    debian copilot是codeberg社区维护的ai助手,旨在为debian用户提供服务。尽管搜索结果中没有直接提供关于debian copilot社区支持活跃度的具体数据,但我们可以通过debian社区的整体活跃度和特点来推断其活跃性。 Debian社区的一般情况: Debian拥有详尽的…

    2026年5月10日
    000
  • Discord.py 交互按钮超时与持久化解决方案

    本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图(View)的超时机制,并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案,确保您的机器人交互功能稳定可靠,即…

    2026年5月10日
    000
  • JavaScript 动态菜单点击高亮效果实现教程

    本教程详细介绍了如何使用 JavaScript 实现动态菜单的点击高亮功能。通过事件委托和状态管理,当用户点击菜单项时,被点击项会高亮显示(绿色),同时其他菜单项恢复默认样式(白色)。这种方法避免了不必要的DOM操作,提高了性能和代码可维护性,确保了无论点击方向如何,功能都能稳定运行。 动态菜单高亮…

    2026年5月10日
    200
  • c++如何实现UDP通信_c++基于UDP的网络通信示例

    UDP通信基于套接字实现,适用于实时性要求高的场景。1. 流程包括创建套接字、绑定地址(接收方)、发送(sendto)与接收(recvfrom)数据、关闭套接字;2. 服务端监听指定端口,接收客户端消息并回传;3. 客户端发送消息至服务端并接收响应;4. 跨平台需处理Winsock初始化与库链接,编…

    2026年5月10日
    000
  • JavaScript函数中插入加载动画(Spinner)的正确方法

    本文旨在解决在JavaScript函数中插入加载动画(Spinner)时遇到的异步问题。通过引入async/await和Promise.all,确保在数据处理完成前后正确显示和隐藏加载动画,提升用户体验。我们将提供两种实现方案,并详细解释其原理和优势。 在Web开发中,当执行耗时操作时,显示加载动画…

    2026年5月10日
    000
  • 使用 Pydantic v2 实现条件性必填字段

    本文介绍了如何在 Pydantic v2 模型中实现条件性必填字段。通过自定义验证器,可以根据模型中其他字段的值来动态地控制某些字段是否为必填项,从而满足 API 交互中数据验证的复杂需求。本文提供了一个具体的示例,展示了如何确保模型中至少有一个字段被赋值。 在 Pydantic v2 中,虽然没有…

    2026年5月10日
    000
  • 三星不再独享,消息称搭载骁龙 8 Gen 3 领先版处理器新机即将发布

    三星不再独享,消息称搭载骁龙 8 Gen 3 领先版处理器新机即将发布三星不再独享,消息称搭载骁龙 8 Gen 3 领先版处理器新机即将发布三星不再独享,消息称搭载骁龙 8 Gen 3 领先版处理器新机即将发布三星不再独享,消息称搭载骁龙 8 Gen 3 领先版处理器新机即将发布

    6 月 15 日消息,据博主@肥威 今日爆料,搭载骁龙 8 Gen 3 领先版%ign%ignore_a_1%re_a_1%的新机即将发布,把之前的 for Galaxy 改成“for Everybody”。 Pic Copilot AI时代的顶级电商设计师,轻松打造爆款产品图片 158 查看详情 …

    2026年5月10日 用户投稿
    000
  • 动态更新圆形进度条:JavaScript成绩计算器集成指南

    本文档旨在指导开发者如何将JavaScript成绩计算系统与动态圆形进度条集成,实现可视化展示平均成绩。我们将详细讲解如何修改现有的JavaScript代码,使其在计算出平均分后,能够动态更新圆形进度条的进度,从而提供更直观的用户体验。本文档包含详细的代码示例和注意事项,帮助开发者轻松实现这一功能。…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信