qwen_第17页_创想鸟

用户投稿

致敬DeepSeek：以国产GPU为基，燎原中国AI生态之火

deepseek开源模型（v3、r1系列等）在多语言理解和复杂推理任务中表现出色，极大促进了ai技术发展，为开发者提供了重要资源。deepseek不仅技术领先，更积极回馈开源社区。摩尔线程高效部署DeepSeek 国产GPU创新企业摩尔线程已高效部署DeepSeek蒸馏模型推理服务，助力开发者基于…

程序猿

2025年11月1日

0000

华人研究团队揭秘：DeepSeek-R1-Zero或许并不存在「顿悟时刻」

deepseek 模型的“顿悟时刻”再研究：自我反思并非训练的关键近期围绕DeepSeek模型的“顿悟时刻”（模型展现出自我反思等涌现能力）引发广泛关注。然而，新加坡Sea AI Lab等机构的研究者对这一现象进行了深入探究，并得出了一些与先前认知不同的结论。过去的研究认为，DeepSeek-R…

程序猿

2025年11月1日 • 用户投稿

0000

全球顶级AI科学家许主洪加盟阿里！IEEE Fellow，五万被引论文数，曾任Salesforce集团副总裁

ai领域顶级人才加盟阿里，引发行业热议！新年伊始，重磅消息传来：ieee fellow、新加坡管理大学终身教授许主洪博士正式加入阿里巴巴。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 许主洪：学术巨擘，产业领军许主洪博士，清华大学计算机…

程序猿

2025年11月1日 • 用户投稿

0000

用户投稿

外媒：国行iPhone最终选择阿里千问？DeepSeek也出局

苹果中国区ai战略：阿里巴巴胜出，携手打造iphone专属ai功能据The Information报道，苹果已选择阿里巴巴作为其在中国市场iPhone AI功能的合作伙伴。此举旨在应对中国市场销售下滑，并为用户提供更具吸引力的软件功能。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无…

程序猿

2025年11月1日

0000

用户投稿

苹果选择通义，肯定阿里的同时，也否定了阿里

苹果ai订单尘埃落定：阿里通义千问胜出，生态安全成关键历时两年的苹果AI订单争夺战最终以阿里巴巴胜出告终。2月11日消息，苹果已选择阿里巴巴为中国版iPhone开发人工智能功能。自2023年起，苹果便在测试多家中国AI模型，竞争者包括百度、字节跳动等巨头，以及百川智能、月之暗面和DeepSeek…

程序猿

2025年11月1日

0000

DeepSeek R1也会大脑过载？过度思考后性能下降，少琢磨让计算成本直降43％

大型语言模型（llm）在执行任务时也可能面临“过度思考”的困境，导致效率低下甚至失败。近期，来自加州大学伯克利分校、uiuc、eth zurich 和 cmu 等机构的研究人员对这一现象进行了深入研究，并发表了题为《过度思考的危险：考察代理任务中的推理-行动困境》的论文（论文链接：https://w…

程序猿

2025年11月1日 • 用户投稿

0000

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

重磅推荐：visual-rft——视觉强化微调开源项目，赋能视觉语言模型！ ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏持续关注全球顶尖AI研究，已发布2000余篇学术技术文章。欢迎投稿分享您的优秀成果！投稿邮箱：liyaz…

程序猿

2025年11月1日 • 用户投稿

0000

为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

深度解析：大模型的自我改进能力为何参差不齐？斯坦福大学最新研究揭秘近期，斯坦福大学的一项研究深入探讨了大型语言模型（LLM）自我改进能力背后的机制，解释了为何有些模型能够有效利用额外计算资源提升性能，而另一些则停滞不前。该研究的核心在于模型的初始“认知行为”。研究人员选取了Qwen-2.5-3B…

程序猿

2025年11月1日 • 用户投稿

0000

用户投稿

DeepCoder-14B-Preview— Agentica 联合 Together AI 开源的代码生成模型

deepcoder-14b-preview：一款开源的140亿参数代码生成模型 Agentica和Together AI联合发布了DeepCoder-14B-Preview，这是一个基于Deepseek-R1-Distilled-Qwen-14B微调的大型代码生成模型。该模型采用分布式强化学习(RL…

程序猿

2025年10月31日

0000