中国最强AI研究院的大模型为何迟到了

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

中国最强ai研究院的大模型为何迟到了

出品|虎嗅科技组

作者|齐健

编辑|陈伊凡

头图|FlagStudio

“OpenAI会再开源大模型吗?”

当智源研究院理事长张宏江向线上参加2023年智源大会的OpenAI首席执行官Sam Altman问及开源问题时,Sam Altman微笑表示,OpenAI未来会开放更多代码,但没有具体的开源时间表。

这样的讨论来自这次智源大会的话题之一——开源大模型。

6月9日,2023年智源大会在北京举行,座无虚席。在大会现场,“算力”、“大模型”“生态”等与AI相关的词时不时出现在参会者的聊天中,还有这个产业链上的各家公司。

中国最强AI研究院的大模型为何迟到了

本次大会上,智源研究院发布了全面开源的悟道3.0。包括视觉大模型系列“视界”,语言大模型系列“天鹰”,以及独创的大模型评测体系“天秤”

大模型开源,就意味着公开模型代码,供AI开发者研究。悟道3.0中的“天鹰”基础层语言模型还是一款可商用的模型,每个人都可以免费使用这款大模型。

目前,微软的深度合作伙伴OpenAI、谷歌和BAAI是在人工智能领域处于前沿地位的三家机构。”微软总裁Brad Smith在不久前的一次采访中,曾提到一家与OpenAI、谷歌齐名的中国“最强”AI研究机构BAAI,这家机构就是北京智源人工智能研究院。众多行业内人士认为,由这个研究院主办的人工智能大会是行业趋势的指向标。

被微软总裁高度认可的智源研究院,早在2020年10月已启动了AI大模型“悟道”项目,并先后发布了悟道大模型1.0和2.0两个版本。其中悟道2.0官方公布的参数规模达到1.7万亿。彼时,OpenAI公布1750亿参数的GPT-3模型也才一年时间。

不过,就是这样一个AI大模型的先行者,在最近半年的AI大模型热潮中,却异常低调。

当大厂和创业公司中,大模型层出不穷时,智源在过去三个多月里,对外一直保持“静默”状态,除了4月上旬与Meta的抠图AI“SAM”撞车的“SegGPT”,几乎没有向公众透露任何有关AI大模型的信息。

对此,AI行业内外的很多人都有疑问,在AI大模型领域领先的智源研究院,为什么在大模型的高潮时刻似乎来迟了?

开源模型要拆了OpenAI的护城河吗?

“虽然现在的大模型竞争火热,但无论是OpenAI还是谷歌,都没有护城河,因为‘开源’正在AI大模型领域崛起。”

在一份谷歌泄露的文件中,谷歌内部研究人员认为,开源模型或将引领大模型发展的未来,这份文件中提到“开源模型的迭代速度更快,可定制性更强,更有私密性,而当免费的、不受限制的替代品质量相当时,人们不会为受限制的模型付费。”这或许也是智源选择开发开源大模型的原因之一。

目前,开源的商用大模型并不多,智源研究院对目前已发布的部分AI大模型进行了一个调查,在国外发布的39个开源语言大模型中,可商用的大模型有16个。在国内发布的28个大语言模型中,共有11个是开源模型,但其中只有1个是开源可商用的模型。

智源此次发布的大语言模型是开源且可商用的模型,也是目前为数不多的可商用开源大语言模型之一,这也决定了这样的模型在发布之前需要更加谨慎。

“就智源来说,肯定不希望开源模型太难看,所以会谨慎发布。”智源大会现场的一位AI研究员表示,开源模型难免要被反复验证,被大量开发者挑bug,为了保证开源模型的质量,智源的研发进度可能被“开源”拖慢了一些。

智源研究院院长黄铁军认为,目前我国市场上大模型的开源开放力度远远不够,“我们应该进一步加强开源开放。开源开放也是竞争,真有水平、真有好算法,拿出来评测、去比,才能证明技术水平。

国内厂商发布大模型时,缺乏透明度,很多人怀疑这些厂商是否真正进行了自主研发。有人说他们是API调用ChatGPT,也有人说他们用Meta泄露的LLaMA模型+ChatGPT的答案数据训练而来,开源模型则从源头上断绝了这些质疑。

不过,开源模型,提高技术透明度并不是为了自证清白,而是真的要“集中力量办大事”。据智源数据显示,天鹰大语言模型每天的训练成本在10万元以上,而在国内“百模大战”甚至“千模大战”的大势下,很多行业中都在进行大量不必要的重复训练,导致的重复开支可能是个天文数字。

而开源模型可以减少重复训练,对于有模型需求的企业来说,直接利用开源可商用的AI大模型,结合自身数据进行训练,或许是AI落地和行业应用的最优解。

开源的另一方面考虑,在于前期积累用户和开发者,以便构建良好生态,并实现未来的商业化。一位国内大模型公司创始人告诉虎嗅,“OpenAI的GPT-1和GPT-2都是开源的大模型,这是为了积累用户,提高模型的认可度。一旦GPT-3的模型能力得到充分展现,商业化就会成为考虑的重点,而这个模型也会逐渐变得封闭。因此,开源模型一般不会允许商用,这也是出于后续商业化的考虑。”

但显然,智源作为非营利的研究机构,在开源问题上,并没有商业化的考虑。对于智源而言,在模型开源方面,一方面是希望通过对底层模型等开源开放,促进AI大模型行业的科研创新,加速产业落地。另一方面,或许也是想要基于开源模型积累更多的用户反馈,提升大模型在工程上的可用性。

不过,模型开源也并非“完美”。

天工大模型 天工大模型

中国首个对标ChatGPT的双千亿级大语言模型

天工大模型 115 查看详情 天工大模型

一位大厂AI技术总监告诉虎嗅,目前的AI大模型的商业化市场可以分为三层,第一层是完全具备自研模型能力的头部大玩家,第二层是需要根据特定场景训练专有模型的企业,第三层则是只需要通用模型能力,使用API接口调用即可满足需求的中小客户。

在这个背景下,开源模型对于有自研能力的头部玩家来说,可以帮助他们省去了大量研发模型的时间和成本。但对于第二层和第三层企业来说,则需要他们自己组建技术团队去对模型进行训练和调优,而这对于很多技术实力不那么雄厚的企业来说,反而把落地流程变得更加复杂了,开源对他们来说似乎有一些“免费的东西最贵”的感觉。

此“悟道”已非彼“悟道”

智源的悟道3.0,是一套完全重新开发的大模型系列,这也是其“迟发”的原因之一。

既然已经有了悟道2.0的基础,智源为什么要重新开发一套模型体系?一方面是模型的技术方向调整,另一方面则是由于模型底层训练数据的“换血”。

“悟道2.0的研发是在2021年,所以无论是语言模型(如GLM)还是文生图模型(如CogView),其所基于的算法架构从现在来看是比较早的。在过去一年多,相关领域的模型架构已经有了更多的验证、或演进。例如,语言模型中采用decoder only的架构,已经证实,加以更高质量的数据,可以在大规模参数的基础模型中,获得更好的生成性能。在文生图模型中,我们改用了基于difussion来进行进一步的创新。所以在悟道3.0中,我们对语言大模型、文图生成大模型等都采用了这些更新的架构来重新开发。”在智源研究院副院长兼总工程师林咏华表示,基于过去模型的研究,悟道3.0在很多方向进行了重构。

另外,悟道3.0还对底层模型的训练数据进行了全面优化升级,训练数据中使用了更新的悟道中文数据,包括2021年到现在的,并进行了更严格的质量清洗;另一方面,增加了大量的高质量中文,包括中文书籍、文献等;此外还增加了高质量的代码数据集等,因此基础模型也发生了很大的改变。

底层模型训练数据非原生中文,导致许多国内模型在中文理解能力上存在问题。很多国内外的AI大型模型都使用了海量来自国外的开源数据来进行训练。其中主要的来源包括著名的开源数据集Common Crawl。

智源对100万条Common Crawl网页数据进行分析,可以提取出中文的网页有39052个。从站源角度来看,可以提取出中文的网站共有25842个,其中IP在中国内地的,只有4522个,占比仅为17%。这样不仅中文数据的准确性大打折扣,安全性也很低。

“训练基础模型的语料很大程度会影响AIGC应用、微调后的模型等内容生成的合规、安全和价值观。”林咏华表示,天鹰基础模型的中文能力不是简单的翻译,而是把足够多中文的知识“压到这个模型里”,它的中文互联网数据99%来自国内网站,企业可以放心地基于它做持续训练。

同时,通过大量对数据、数字的精细化处理和清洗,达到用少的数据量来训练出一样性能甚至性能更好的模型,这个数据甚至低到30%、40%的数据量就能赶上或者超过现有的开源模型了。

如今看来,这条路径对于智源来说,也许是个更优解。因为在训练数据方面,智源与互联网厂商相比存在短板。大型互联网企业拥有丰富的用户互动数据,同时还有大量版权数据可供训练。就在不久前,阿里达摩院刚刚发布来一款视频语言数据集Youku-mPLUG,其中的所有内容均来自阿里旗下的视频平台优酷。

由于智源没有深厚的用户基础,所以在训练数据方面,只能通过与版权方协商获得授权,并通过一些公益数据项目一点点采集积累。

但是,目前智源的中文数据集还只能做到部分开源,其主要原因是,中文数据的版权分散在各个机构手中,目前智源的训练数据是在多方协调下,获得的针对开源模型研究开放的使用权限。大部分数据只能应用到智源的模型中,而没有开放二次使用的权利。

国内很有必要建立针对数据集的产业联盟,把版权所有方联合在一起,对人工智能方面的训练数据进行统一规划,但这需要顶层设计的智慧。”林咏华告诉虎嗅。

国内大模型行业的黄埔军校

悟道3.0正在讲一个与悟道2.0不同的故事,研发团队的变化是其中之一。作为AI大模型行业的先驱,智源研究院就像是国内AI大模型的黄埔军校。上到智源学者,下至基层工程师,在今天的大模型热潮中,都成了行业里的香饽饽,智源的原始团队中,也孵化了几个大模型的创业团队。

在悟道3.0之前,一个大模型系列是由多个外部实验室联合发布的研究成果的组合,而这次的悟道3.0是由智源团队完全自研的系列模型。

悟道2.0模型是2021年发布的,其中包括文源、文澜、文汇和文溯。其中,两个核心模型分别由清华的两个实验室主力完成。如今,这两个团队已经创办了各自的公司,并在CPM和GLM的研发方向上发展出了自己独立的产品。

其中,GLM的主力研发团队清华大学知识工程研究室(KEG),就与智谱AI一同推出了开源模型ChatGLM-6B,并得到了业界的广泛认可;CPM的主力研发团队,清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP)中的部分成员组成的深言科技,成立一年就受到了各家资本的青睐,今年的两轮融资中分别出现了腾讯投资、红杉中国、奇绩创坛等基金的身影。

有接近智源研究院的人士告诉虎嗅,自从国内AI大模型升温以来,智源团队成为了人才大战的“围猎目标”,“整个研发团队都被其他公司或猎头盯上”。

当下国内AI大模型行业,最不缺的是钱,最缺的就是人。在猎聘、脉脉、BOSS直聘三个平台搜索ChatGPT,硕博学历职位的月薪普遍高于3万,最高达9万。“在薪酬方面IT大厂并不会占多少便宜,AI大模型的研发都是高举高打,创业公司给出的薪酬可能更有竞争力。”西湖心辰COO俞佳对虎嗅表示,人才大战在AI行业里将会越来越激烈。

“薪酬double,在智源的很多员工看来根本就没有竞争力。因为现在都是拿着五倍甚至十倍工资来挖人。即使你再有理想,对未来再有规划,也很难顶住过百万年薪的诱惑。”一位接近智源的人士告诉虎嗅,由于智源是一家非营利研究机构,薪酬水平很难与互联网大厂或者是背后有大量资本支持的创业公司相比。

经由猎头了解,虎嗅得知自然语言处理专家的起薪目前都超过100万。对于一些工作年限长,工资不高的员工来说,面对几倍的薪水很难不动摇。

不过,从目前智源的公开数据来看,智源研究院的各个核心项目团队带头人,多数还在全职负责智源研究院的研发项目。

悟道3.0的模型全部是智源自己的研究人员开发的,包括天鹰、天秤,以及视界。”林咏华表示,智源研究院目前的研发实力在行业中一直是顶尖的。

正在改变与想要改变世界的人,都在虎嗅APP

以上就是中国最强AI研究院的大模型为何迟到了的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/517531.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Linux下Compton有何作用
上一篇 2025年11月9日 03:54:24
如何通过Java框架实现高并发下的系统稳定性?
下一篇 2025年11月9日 03:54:33

相关推荐

  • PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用

    PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用PHP代码注入检测机器学习应用_机器学习在代码注入检测中的应用

    机器学习能超越传统方法的关键在于其对未知攻击的泛化识别能力。传统规则依赖已知模式,难以应对变种攻击;而机器学习通过分析代码的词法、句法、语义和数据流特征,构建抽象的行为模型,可识别未见过但模式相似的恶意代码。例如,即便攻击者使用编码或混淆技术,只要其数据流向敏感函数(如eval、system)的行为…

    2026年5月10日 用户投稿
    000
  • 开发基于ChatGPT的自动写诗系统:Python让诗意流淌

    开发基于ChatGPT的自动写诗系统:Python让诗意流淌 自古以来,诗歌一直是人类表达感情和思想的一种重要方式。然而,写好一首优美的诗歌并不是每个人都能做到的,特别是对于那些没有诗歌创作经验的人来说。但是,现代技术的发展让自动写诗成为可能,人们可以利用计算机和人工智能技术来自动生成诗歌。在这篇文…

    2026年5月10日
    000
  • ai做html怎么运行_AI生成html运行步骤【教程】

    答案是使用AI生成HTML代码后,将其保存为.html文件并用浏览器打开即可运行。具体步骤为:1. 在AI工具中输入需求生成HTML代码;2. 将代码复制到文本编辑器并另存为index.html,编码选UTF-8,类型选“所有文件”;3. 双击该文件用浏览器打开,若无法正常显示需检查文件后缀、编码及…

    2025年12月23日
    000
  • Mac MAMP配置虚拟主机让HTML加载CSS零延迟

    配置MAMP虚拟主机并优化路径与缓存,可实现CSS零感知延迟加载。1. 启用httpd-vhosts.conf;2. 添加VirtualHost指向项目目录;3. 修改hosts文件绑定project.test;4. 使用根路径引用CSS;5. 开启mod_expires模块并配置.htaccess…

    2025年12月23日
    000
  • HTML5怎么实现图片懒加载_HTML5懒加载优化方案

    优先使用原生loading=”lazy”属性实现图片懒加载,现代浏览器支持良好,代码简洁高效;对于需兼容旧浏览器或精细控制的场景,采用Intersection Observer API结合data-src延迟加载真实图片,性能优越且可监听元素进入视口时机;为提升用户体验,应使…

    2025年12月23日
    000
  • HTML响应式设计怎么做?适配多设备的5个HTML方案

    HTML响应式设计怎么做?适配多设备的5个HTML方案HTML响应式设计怎么做?适配多设备的5个HTML方案HTML响应式设计怎么做?适配多设备的5个HTML方案HTML响应式设计怎么做?适配多设备的5个HTML方案

    响应式设计通过灵活布局与媒体查询适配多设备,提升用户体验与开发效率。1. 设置视口元标签控制缩放;2. 使用flexbox/grid实现弹性布局;3. 图片与媒体使用max-width与srcset自适应;4. 媒体查询定义断点调整样式;5. 采用rem、vw等相对单位保持比例;6. 区别于自适应设…

    2025年12月22日 用户投稿
    000
  • javascript的机器学习如何入门_有哪些可用的JavaScript库

    JavaScript适合浏览器端轻量推理与教学,不宜训练大模型;推荐从线性回归、KNN等简单任务入手,优先掌握张量操作、模型流程及Chrome调试技巧。 JavaScript 做机器学习确实可行,但得明确一点:它不适合训练大型模型,更适合在浏览器端做轻量推理、数据预处理、教学演示或与 Web 应用集…

    2025年12月21日
    000
  • p5.js中类方法声明的语法解析与常见错误修复指南

    本文旨在解决从java processing迁移至p5.js时常见的语法错误,特别是类内部方法声明不当引发的问题。我们将深入探讨javascript中全局函数与类方法声明的语法差异,提供清晰的示例代码,并指导如何识别和修复“unexpected token”及“declaration or stat…

    2025年12月21日
    600
  • p5.js中类方法声明的语法修正与迁移指南

    本文深入探讨了将Processing/Java代码转换为p5.js时,因JavaScript类方法声明语法差异而引发的常见错误。我们将重点解析`Unexpected token`和`Declaration or statement expected`等错误信息,明确全局函数与类成员方法在JavaSc…

    2025年12月21日
    000
  • 怎样用js脚本实现图片懒加载_js图片懒加载脚本编写与优化技巧

    图片懒加载的核心思路是延迟加载非首屏图片,待其接近视口时再加载。通过将真实图片路径存于data-src属性,初始用占位图填充src,避免布局抖动;JavaScript监听滚动或使用Intersection Observer判断图片是否进入视口,动态赋值src完成加载。为提升性能,可采用节流控制scr…

    2025年12月21日
    100
  • TypeScript泛型函数中复杂对象结构类型推断的精确控制

    本文探讨了在typescript中处理复杂嵌套对象结构时,如何为泛型函数实现精确的类型推断。通过一个具体的汽车品牌和车型数据场景,我们分析了`object.values`等操作可能导致类型信息丢失的问题。核心解决方案是利用映射类型(mapped types)重构数据结构,以显式地建立泛型键与对应值之…

    2025年12月21日
    000
  • 解决 ChatGPT 扩展选择器失效问题:一个实战教程

    本文旨在帮助开发者解决 ChatGPT 网页更新导致扩展选择器失效的问题。通过分析问题原因,提供利用开发者工具查找新选择器的方法,并展示了使用 getElementsByClassName() 替代 querySelector() 的解决方案,以确保扩展功能在 ChatGPT 最新版本中正常运行。 …

    2025年12月20日
    000
  • ChatGPT 扩展失效:定位新版选择器并修复

    本文旨在帮助开发者解决因 ChatGPT 网页更新导致扩展失效的问题。通过分析失效原因,提供利用开发者工具定位新版选择器的实用方法,并给出示例代码,帮助开发者快速修复扩展,恢复其功能。 当 ChatGPT 网页更新时,依赖于特定 CSS 选择器的扩展程序可能会失效。这通常是因为网页结构的改变导致原有…

    2025年12月20日
    700
  • ChatGPT 扩展失效?定位新版选择器的实用指南

    本文旨在帮助开发者解决因 ChatGPT 网页更新导致扩展失效的问题。重点讲解如何定位新版 ChatGPT 网页中的目标元素,并提供使用 getElementsByClassName() 方法的示例代码,帮助开发者快速修复和更新扩展,使其重新适配新版 ChatGPT 网页。 ChatGPT 网页频繁…

    2025年12月20日
    500
  • ChatGPT 扩展插件选择器失效问题排查与解决方案

    本文旨在帮助开发者解决 ChatGPT 扩展插件因页面更新导致选择器失效的问题。通过分析页面结构变化,提供使用 getElementsByClassName() 方法替代 querySelector() 的解决方案,并提供在不同浏览器环境下调整选择器的思路,确保扩展插件的稳定运行。 由于 ChatG…

    2025年12月20日
    100
  • 应对ChatGPT界面更新:浏览器扩展选择器失效的定位与修复

    本文针对ChatGPT界面更新导致浏览器扩展选择器失效的问题,提供了一套定位与修复策略。核心在于利用浏览器开发者工具识别新的DOM结构和类名,并建议从不稳定的querySelector转向更适合动态UI的getElementsByClassName等方法,以确保扩展的稳定运行。 在开发浏览器扩展时,…

    2025年12月20日
    000
  • 如何构建一个支持AI辅助代码生成的开发工具?

    答案是构建AI辅助开发工具需聚焦开发者真实痛点,通过代码上下文感知引擎理解语义,结合本地与云端推理平衡速度与质量,强化安全隐私保护,并深度集成主流IDE实现反馈闭环,让AI成为响应快、理解准、可信赖的编程搭档。 构建一个支持AI辅助代码生成的开发工具,核心在于将AI能力无缝集成到开发者的工作流中,提…

    2025年12月20日
    100
  • LINE Bot 多消息类型回复:文本与贴图的组合发送指南

    本文旨在解决 LINE Bot 开发中,通过 Messaging API 组合发送文本消息和贴图时遇到的 400 Bad Request 错误。核心问题在于对同一 replyToken 进行多次 replyMessage 调用,而正确的做法是利用 API 支持在单次调用中发送一个消息数组,从而实现文…

    2025年12月20日
    000
  • JavaScript中的Web Assembly(WASM)带来了哪些性能突破?

    WASM通过接近原生的执行速度、更小的二进制体积和跨平台能力,显著提升Web性能;它与JavaScript互补,使浏览器能运行AutoCAD、Figma等重型应用,并支持4K视频处理、大模型训练等复杂任务,推动Web向桌面级体验演进。 WebAssembly(WASM)为JavaScript生态带来…

    2025年12月20日
    500
  • 使用LINE Bot与OpenAI API发送文本和贴图的完整教程

    本文详细介绍了如何在LINE Bot中集成OpenAI API生成文本回复,并在此基础上发送LINE贴图。核心挑战在于LINE Messaging API的replyToken通常只能使用一次,导致连续发送文本和贴图时出现400错误。解决方案是利用API支持一次性发送多条消息的特性,将文本和贴图消息…

    2025年12月20日
    000

发表回复

登录后才能评论
关注微信