qwen_第5页_创想鸟

英伟达开源最强通用模型Nemotron-4 340B

性能超越 llama-3，主要用于合成数据。 Freepik Mystic Freepik Mystic 是一款革命性的AI图像生成器，可以直接生成全高清图像 127 查看详情英伟达的通用大模型 Nemotron，开源了最新的 3400 亿参数版本。本周五，英伟达宣布推出 Nemotron-4 3…

程序猿

2025年11月26日 • 用户投稿

1000

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@ji…

程序猿

2025年11月26日 • 用户投稿

1000

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@ji…

程序猿

2025年11月26日 • 用户投稿

0000

单卡A100实现百万token推理，速度快10倍，这是微软官方的大模型推理加速

微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1m 的输入文本。大型语言模型 (LLM) 已进入长上下文处理时代，其支持的上下文窗口从先前的 128K 猛增到 10M token 级别。然而，由于注意力机制的二次复杂度，模型处理输入提示（即预填充阶段）并开始产生第一个 tok…

程序猿

2025年11月26日 • 用户投稿

0000

Mistral首个多模态模型Pixtral 12B来了！还是直接放出24GB磁力链接

训练完就直接上模型。我们都知道，Mistral 团队向来「人狠话不多」。昨天下午，他们又又又丢出了一个不带任何注解的磁力链接。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 解析一下这个链接，可以看到大小共 23.64 GB，其中包含 4…

程序猿

2025年11月26日 • 用户投稿

0000

GRPO在《时空谜题》中击败o1、o3-mini和R1

openpipe平台最新研究：开源模型通过强化学习在复杂推理任务中超越顶级闭源模型 OpenPipe平台近期发布的一项研究显示，通过运用GRPO强化学习算法，其团队成功地使开源模型Qwen在重度推理游戏《时空谜题》中的表现超越了DeepSeek R1、OpenAI的o1和o3-mini等业界领先模型…

程序猿

2025年11月26日 • 用户投稿

1000

双·11必备全能显卡！华硕5070显卡2K游戏与生产力双BUFF拉满！

nvidia ace是一套由rtx加速的数字人技术，可借助生成式ai使游戏角色栩栩如生～ai驱动的nvidia ace自主意识游戏角色，为游戏实现了拥有自主意识的队友、npc 和敌人，解锁了一系列全新的游戏玩法与可能性！ Topaz Video AI 一款工业级别的视频增强软件 388 查看详情如…

程序猿

2025年11月26日 • 用户投稿

0000

原来，这些顶级大模型都是蒸馏的

中国科学院深圳先进技术研究院、北京大学和零一万物等机构的研究人员在一篇新论文中指出，除了 claude、豆包和 gemini 外，许多知名的闭源和开源大型语言模型（llm）都显示出高度的蒸馏现象。近期，一位海外技术分析师推测，一些顶级AI公司可能已开发出极其强大的模型（例如OpenAI的GPT-5…

程序猿

2025年11月26日 • 用户投稿

2000

DeepSeek V3+R1满血微调工具上线！一键启动，硬件要求降10倍

deepseek v3/r1风靡全网，其底层模型方案和api服务已广泛应用，但价格战和免费竞争也日益激烈。如何充分利用现有资源，结合专业领域数据进行模型后训练（post-training），以低成本打造高质量的私有模型，从而提升业务竞争力和价值？拥有近4万GitHub Star的Colossal…

程序猿

2025年11月26日 • 用户投稿

0000

重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

嘿，各位开发小伙伴，今天要给大家安利一个全新的开源项目 ——VLM-R1！它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域，这意味着打开了对于多模态领域的想象空间！这个项目的灵感来自去年 DeepSeek 开源的那个 R1 方法，靠着 GRPO（Generative Re…

程序猿

2025年11月26日 • 用户投稿

0000