qwen
-
上交大o1复现新突破:蒸馏超越原版,警示AI研发”捷径陷阱”
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢…
-
Scaling Law 撞墙?复旦团队大模型推理新思路:Two-Player架构打破自我反思瓶颈
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢…
-
推动大模型自我进化,北理工推出「流星雨计划」
北京理工大学计算机科学与技术学院的direct lab启动了“流星雨”研究计划,旨在探索大模型的自我进化理论与方法。该计划的核心思想源于人类个体能力提升的模式:在掌握基本技能后,通过与环境及自身的交互,不断学习和改进。 本文将重点介绍该计划在代码大模型和垂域大模型进化方面的成果。 SRA-MCTS:…
-
小米开源多模态大模型MiMo-VL 称多方面优于Qwen2.5-VL-7B
【创想鸟快讯】5月30日,小米通过其官方公众号“xiaomi mimo”正式宣布,旗下多模态大模型 xiaomi mimo-vl 开源。此次开源包括 mimo-vl-7b 的 rl 前后两个版本,以及支持超过 50 项评测任务的完整框架,代码已上传至 github。 ☞☞☞AI 智能聊天, 问答助手…
-
4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级
清华大学陈键飞团队推出sageattention2:实现4-bit即插即用注意力机制,显著提升大模型推理速度 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏持续报道全球顶尖AI研究成果。 近年来,该专栏已发表2000余篇学术技…
-
引入长思维链!微信基于阿里千问大模型搞出个翻译版o1
微信ai团队最新研究成果drt-o1:赋予大型语言模型(llm)长链思维能力,显著提升机器翻译效果!该研究巧妙地将长链思维(cot)应用于神经机器翻译(mt),尤其在处理文学作品中复杂的比喻和隐喻时,展现出显著优势。 DRT-o1的核心在于其创新的数据合成方法。研究团队并非直接训练模型进行长链思维,…
-
阿里云CTO周靖人:阿里云百炼服务客户数从9万增长至23万,涨幅超150%
7月5日,在上海世界人工智能大会上,阿里云cto周靖人公布近期通义大模型和阿里云百炼平台的最新进展。近2个月,通义千问开源模型下载量增长2倍,突破2000万次,阿里云百炼服务客户数从9万增长至23万,涨幅超150%。 周靖人重申了阿里云拥抱开源开放的坚定立场,“两年前,我们在世界人工智能大会上发布通…
-
最受欢迎开源大模型,为什么是通义?
开源大模型的崛起:通义千问如何引领中国ai生态繁荣? 开源已成为大模型技术发展和生态繁荣的关键驱动力。过去,高昂的训练成本限制了大模型的普及,只有资金雄厚的大厂才能涉足。然而,Llama、Mistral等开源先锋的出现打破了这一局面,使中小企业和个人开发者也能低成本地训练和部署专属模型。 中国大模型…
-
价格战之后,智谱来到商业化的下一站
「创想鸟(公众号:创想鸟)消息」刚刚过去的 5 月里,中国 ai 大模型领域掀起一场价格战,激起行业热议。 这次价格战的两股势力分别是互联网大厂和大模型创业公司,以字节、阿里云、腾讯和智谱为主要参战代表。 面对这场突如其来的价格战,大家讨论最多的是,创业公司很难承受得住这样的比拼。 相比互联网大厂底…
-
“Nano Banana”上线不到 10 天,为谷歌 Gemini 吸引超过 1000 万名新用户
谷歌最新推出的 AI 实验项目“Nano Banana”上周迅速走红。谷歌实验室副总裁 Josh Woodward 在 X 平台透露,该功能上线后,已累计完成超过 2 亿次图像编辑操作,成功吸引超过 1000 万新用户首次使用 Gemini 应用。 谈及这一现象级热度,他幽默表示:“TPU 几乎被压…