看破不可见数据集，自我监督学习成为细胞组学新的复杂系统处理利器

程序猿 • 2025年11月4日 21:15:19 • 用户投稿 • 阅读 0

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

单细胞基因组学中的自监督学习：突破与挑战

自监督学习（SSL）是一种强大的机器学习方法，它利用数据自身的内在结构来学习有意义的数据表示，无需依赖人工标注的标签。这项技术已在计算机视觉和自然语言处理领域取得显著成果。然而，在单细胞基因组学（SCG）中，SSL 的应用仍处于探索阶段，其有效性和最佳应用场景尚不明确。

德国慕尼黑的研究团队近期发表在《Nature Machine Intelligence》上的研究论文“Delineating the effective use of self-supervised learning in single-cell genomics”深入探讨了 SCG 中 SSL 的应用。该团队对多种 SSL 方法进行了调整和基准测试，包括掩码自动编码器和对比学习方法，并分析了不同掩码策略的影响。

研究结果显示，在 SCG 中，掩码自动编码器通常优于对比学习方法，这与计算机视觉领域的趋势有所不同。此外，SSL 在零样本学习、跨模态预测和数据集成方面展现出巨大潜力。

SSL 在 SCG 数据集中的应用及发现

随着单细胞 RNA 测序技术的进步，SCG 数据集规模迅速扩大，这为大模型的应用提供了契机，但也带来了新的挑战。SSL 为应对这些挑战提供了一种有效的途径。

研究团队在多种 SCG 任务中评估了 SSL 的性能，包括细胞类型预测、基因表达重建、跨模态预测和数据集成。他们发现，SSL 特别适用于以下场景：

迁移学习：利用大型辅助数据集进行预训练，可以显著提升对较小数据集的分析性能。零样本学习：SSL 模型在处理未见过的数据集时，表现出优异的泛化能力。

研究中使用的掩码自动编码器架构采用了多种掩码策略，从随机掩码到基于基因功能的定向掩码，以探索不同策略对 SSL 性能的影响。

海豚AI学

猿辅导集团旗下的一款全新智能学习产品

64 查看详情

图示：在 SCG 辅助数据上，SSL 提升了模型性能。（图源：论文）

SSL 与监督学习的比较

当 SSL 模型和监督学习模型都访问相同的数据时，它们的性能相当。然而，在处理未见过的数据集时，SSL 模型展现出更强的泛化能力，实现了更高的准确性和零样本性能。在跨模态预测任务中，SSL 也显著优于监督学习方法。

图示：SSL 在未见过的数据集上实现了高零样本性能和更高的准确性。（图源：论文）

未来发展方向

这项研究为 SCG 中 SSL 的应用提供了宝贵的经验和指导。研究团队建议使用随机掩码策略的掩码自动编码器作为基础模型，并强调了大型预训练数据集的重要性。这项工作为计算生物学领域提供了新的思路，为更有效地分析和理解复杂生物系统铺平了道路。

原文链接：https://www.php.cn/link/3c26e81100f278a7b622b2b1f30d8bae

代码链接：https://www.php.cn/link/21eca1b8f66e8247daca8dd2fecd844c

以上就是看破不可见数据集，自我监督学习成为细胞组学新的复杂系统处理利器的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/292570.html

理论

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

windows10如何更改用户名_Windows账户用户名修改步骤

上一篇 2025年11月4日 21:15:08

关于linux中sed命令的示例代码分享详解

下一篇 2025年11月4日 21:15:24

html的基础理论

本篇文章给大家分享的是关于html基础理论知识，内容很不错，有感兴趣的朋友可以看一下 HTML 语义化 HTML标签的语义化是指：通过使用包含语义的标签（如h1-h6）恰当地表示文档结构 css命名的语义化是指：为html标签添加有意义的class 为什么需要语义化：立即学习“前端免费学习笔记（…

程序猿
好文分享 2025年12月21日
0000
北航打破模态壁垒，跨可见光-红外模态的通用物理对抗攻击方法来了

近年来，针对视觉感知系统安全性评估的探索逐步深入，先后有研究者成功实现基于眼镜、贴纸、衣服等不同载体的可见光模态安全评估技术，也有一些针对红外模态的新尝试。但是它们都只能作用于单一模态。随着人工智能技术的发展，可见光 – 热红外成像技术已同时应用于治安监控、自动驾驶等诸多安全关键任务中…

程序猿
2025年12月1日 • 用户投稿
1000
「场景控制传送门：四合一物体传送，上交&蚂蚁出品」

在常见的图像编辑操作中，图像合成是指将一张图片的前景物体与另一张背景图片结合，生成一张合成图的过程。合成后的图像在视觉效果上类似于将前景物体从一张图片传送到另一张背景图片上，如下图所示图像合成在艺术创作、海报设计、电子商务、虚拟现实、数据增广等领域被广泛使用通过简单的剪切粘贴得到的合成图可能会存…

程序猿
2025年12月1日 • 用户投稿
0000
把LLM视作操作系统，它就拥有了无限「虚拟」上下文，伯克利新作已揽1.7k star

近年来，大语言模型（llm）及其底层的 transformer 架构已经成为了对话式 ai 的基石，并催生了广泛的消费级和企业应用程序。尽管有了长足的进步，但 llm 使用的固定长度的上下文窗口极大地限制了对长对话或长文档推理的适用性。即使是使用最广泛的开源 llm，它们的最大输入长度只允许支持几十…

程序猿
2025年12月1日 • 用户投稿
0000
AMD与约翰霍普金斯大学联手：AI实验室copilot自动化科研，成本节约84%！

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 2049 科学研究，尤其是机器学习领域的研究，往往需要大量的时间和资源投入，从最初的构思到最终的结果产出，每一步都充满了挑战。近年来，大型语言模型（Large Language Mo…

程序猿
2025年12月1日 • 用户投稿
0000
五个时间序列预测的深度学习模型对比总结

Makridakis M-Competitions系列（分别称为M4和M5）分别在2018年和2020年举办（M6也在今年举办了）。对于那些不了解的人来说，m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结，为当前得预测的理论和实践提供了经验和客观的证据。 2018年M4的结果表明，纯粹的…

程序猿
2025年11月27日 • 用户投稿
0000
机器学习为未来核聚变发电厂寻找合适的氢同位素组合

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 白菜叶恒星的动力来源——核聚变——被提议作为人类未来的能源，并且可以提供清洁和可再生的能源，而无需与当前核裂变工厂相关的放射性废物。就像从太阳溢出能量的聚变过程一样，未来的核聚变设…

程序猿
2025年11月27日 • 用户投稿
0000
10万美元+26天，一个低成本千亿参数LLM就诞生了

包括仅解码器结构（如 GPT 和 LLAMA 系列模型）、仅编码器结构（如 BERT）和编码器 – 解码器结构（如 T5）以及它们的变体模型在内的大型语言模型（LLM）已经取得了非凡的成功，并已被广泛用于各种语言处理和多模态任务。尽管如此成功，训练 LLM 的成本还是过于高昂，以至于仅…

程序猿
2025年11月27日 • 用户投稿
0000
【论文解读】基于图的自监督学习联合嵌入预测架构

一、简要介绍 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 本文演示了一种学习高度语义的图像表示的方法，而不依赖于手工制作的数据增强。论文介绍了基于图像的联合嵌入预测架构（I-JEPA），这是一种用于从图像中进行自监督学习的非生成性方法。I…

程序猿
2025年11月26日 • 用户投稿
1000
AI炼金术革新化学：MIT学者使用生成式AI，六秒生成新化学反应

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 需要重新书写的是：编辑 | 凯霞化学从远古的「等价交换」炼金术开始，一直是一门研究和控制物质间相互作用的学科。通过不断解锁和利用新的化学反应，人们开发了许多新材料。这些新材料不仅为人们的生活带…

程序猿
2025年11月26日 • 用户投稿
2000
AI4Science的基石：几何图神经网络，最全综述来了！人大高瓴联合腾讯AI lab、清华、斯坦福等发布

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | XS Nature 在 2023 年 11 月发表了两项重要研究成果：蛋白质合成技术 Chroma 和晶体材料设计方法 GNoME。这两项研究都采用了图神经网络作为处理科学数据的工具。…

程序猿
2025年11月26日 • 用户投稿
0000
多功能RNA分析，百度团队基于Transformer的RNA语言模型登Nature子刊

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 萝卜芯预训练语言模型在分析核苷酸序列方面显示出了良好的前景，但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。百度大数据实验室（Big Data Lab，BDL）…

程序猿
2025年11月26日 • 用户投稿
0000
微软发布首个大气AI基础模型Aurora

编辑 | scienceai 在2023年11月，飓风“夏兰”（Ciarán）袭击欧洲西北部，造成严重破坏。与风暴Ciarán相关的低压系统为英格兰创下了新纪录，这是一次极为罕见的气象事件。那场风暴的强度让许多人措手不及，暴露了当前天气预报模型的局限性，并突显出面对气候变化需要更准确的预测。当大家…

程序猿
2025年11月26日 • 用户投稿
2000
AI小分子药物发现的「百科全书」，康奈尔、剑桥、EPFL等研究者综述登Nature子刊

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 作者 | 康奈尔大学杜沅岂编辑 | ScienceAI 随着 AI for Science 受到越来越多的关注，人们更加关心 AI 如何解决一系列科学问题并且可以被成功借鉴到其他相近的领域。 …

程序猿
2025年11月26日 • 用户投稿
0000
高效且准确，郑州大学团队开发新AI工具识别药物-靶标相互作用

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 枯叶蝶准确识别药物-靶标相互作用（DTI）是药物发现和药物重新定位过程中的关键步骤之一。目前，许多基于计算的模型已被提出，用于预测 DTI，并取得了一些显著的进步。然而，这些方法…

程序猿
2025年11月26日 • 用户投稿
1000
Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 萝卜皮 OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型（LLM）因其在化学信息学领域的潜力而日益受到认可，特别是在理解简化分子输入行输入系统（SMILES…

程序猿
2025年11月26日 • 用户投稿
0000
通过深度学习预测离散时间分岔

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | 白菜叶许多自然和人造系统都容易发生关键转变——动态方面的突然且可能具有破坏性的变化。深度学习分类器可以通过从大型模拟训练数据集中学习分叉的通用特征，为关键转变提供预警信号。到目前为止，…

程序猿
2025年11月26日 • 用户投稿
0000
CVPR 2024 ｜自动驾驶世界模型四维时空预训练

北京大学与evlo创新团队共同提出面向自动驾驶的四维时空预训练算法driveworld。该方法采用世界模型进行预训练，设计记忆状态空间模型进行四维时空建模，通过预测场景的占据栅格，降低自动驾驶面临的随机不确定性和知识不确定性。该论文已被cvpr 2024接收。 ☞☞☞AI 智能聊天, 问答助手, A…

程序猿
2025年11月26日 • 用户投稿
0000
筛选数十亿化合物库，华盛顿大学药物AI虚拟筛选平台，登Nature子刊

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | KX 基于结构的虚拟筛选在药物发现中发挥着重要作用，科学家对数十亿种化合物库的筛选越来越感兴趣。但只有少数的筛选取得成功，此外，对于基于物理的对接方法而言，对整个超大型库进行虚拟筛选…

程序猿
2025年11月26日 • 用户投稿
2000
从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 编辑 | ScienceAI 人们总是在寻找规律来解释宇宙，并预测未来。俗话说，「朝霞不出门，晚霞行千里」，人们常常用它来预测天气。 AI 非常擅长发现模式并进行预测。现在，微软研究人员正在尝试…

程序猿
2025年11月26日 • 用户投稿
0000

发表回复

登录后才能评论

看破不可见数据集，自我监督学习成为细胞组学新的复杂系统处理利器

关于作者

相关推荐

发表回复