qwen
-
致敬DeepSeek:以国产GPU为基,燎原中国AI生态之火
deepseek开源模型(v3、r1系列等)在多语言理解和复杂推理任务中表现出色,极大促进了ai技术发展,为开发者提供了重要资源。deepseek不仅技术领先,更积极回馈开源社区。 摩尔线程高效部署DeepSeek 国产GPU创新企业摩尔线程已高效部署DeepSeek蒸馏模型推理服务,助力开发者基于…
-
华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」
deepseek 模型的“顿悟时刻”再研究:自我反思并非训练的关键 近期围绕DeepSeek模型的“顿悟时刻”(模型展现出自我反思等涌现能力)引发广泛关注。然而,新加坡Sea AI Lab等机构的研究者对这一现象进行了深入探究,并得出了一些与先前认知不同的结论。 过去的研究认为,DeepSeek-R…
-
全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁
ai领域顶级人才加盟阿里,引发行业热议!新年伊始,重磅消息传来:ieee fellow、新加坡管理大学终身教授许主洪博士正式加入阿里巴巴。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 许主洪:学术巨擘,产业领军 许主洪博士,清华大学计算机…
-
外媒:国行iPhone最终选择阿里千问?DeepSeek也出局
苹果中国区ai战略:阿里巴巴胜出,携手打造iphone专属ai功能 据The Information报道,苹果已选择阿里巴巴作为其在中国市场iPhone AI功能的合作伙伴。此举旨在应对中国市场销售下滑,并为用户提供更具吸引力的软件功能。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无…
-
苹果选择通义,肯定阿里的同时,也否定了阿里
苹果ai订单尘埃落定:阿里通义千问胜出,生态安全成关键 历时两年的苹果AI订单争夺战最终以阿里巴巴胜出告终。2月11日消息,苹果已选择阿里巴巴为中国版iPhone开发人工智能功能。 自2023年起,苹果便在测试多家中国AI模型,竞争者包括百度、字节跳动等巨头,以及百川智能、月之暗面和DeepSeek…
-
DeepSeek R1也会大脑过载?过度思考后性能下降,少琢磨让计算成本直降43%
大型语言模型(llm)在执行任务时也可能面临“过度思考”的困境,导致效率低下甚至失败。近期,来自加州大学伯克利分校、uiuc、eth zurich 和 cmu 等机构的研究人员对这一现象进行了深入研究,并发表了题为《过度思考的危险:考察代理任务中的推理-行动困境》的论文(论文链接:https://w…
-
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源
重磅推荐:visual-rft——视觉强化微调开源项目,赋能视觉语言模型! ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏持续关注全球顶尖AI研究,已发布2000余篇学术技术文章。欢迎投稿分享您的优秀成果!投稿邮箱:liyaz…
-
为什么Qwen能自我改进推理,Llama却不行?斯坦福找到了原理
深度解析:大模型的自我改进能力为何参差不齐?斯坦福大学最新研究揭秘 近期,斯坦福大学的一项研究深入探讨了大型语言模型(LLM)自我改进能力背后的机制,解释了为何有些模型能够有效利用额外计算资源提升性能,而另一些则停滞不前。该研究的核心在于模型的初始“认知行为”。 研究人员选取了Qwen-2.5-3B…
-
DeepCoder-14B-Preview— Agentica 联合 Together AI 开源的代码生成模型
deepcoder-14b-preview:一款开源的140亿参数代码生成模型 Agentica和Together AI联合发布了DeepCoder-14B-Preview,这是一个基于Deepseek-R1-Distilled-Qwen-14B微调的大型代码生成模型。该模型采用分布式强化学习(RL…