通义听悟诞生背后，AI大模型打响应用第一枪

程序猿 • 2025年11月9日 11:18:07 • 用户投稿 • 阅读 1

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图来自Canva可画配

2023年伊始，ChatGPT的爆火出圈，迅速引发了业界对于生成式AI应用的关注，AI大模型的竞争更是愈演愈烈。

作为参与其中的重要玩家，阿里云先是在4月11日举行的阿里云峰会上，推出了通义千问大模型。紧接着6月1日，阿里云宣布通义大模型进展，聚焦音视频内容的AI新品“通义听悟”正式上线，成为国内首个开放公测的大模型应用产品，这意味着阿里云大语言模型，又向前端应用迈进了一大步。同时其基于AI大模型应用的发布，也相当于给当前纷争正劲的“大模型混战”，掷下了一枚重磅炸弹。

千模大战一触即发

近几个月，随着微软、谷歌、亚马逊等硅谷大厂，纷纷公布大模型及AIGC进展，通过AI搜索引擎、AI办公软件等一系列应用打响AI竞赛，国内互联网云大厂也陆续全军出击了。不只是大厂就连很多初创企业，VC/PE机构、各行各业巨头，都涌入了AI大模型赛道，试图从中分一杯羹。据不完全统计，目前公布推出AI大模型计划的大企业，不下于50多家，其他参与者更是不计其数。

从格局上来看，以“BATH”等为代表的互联网科技公司，凭借场景、算力、全栈技术能力等综合实力，稳居行业第一梯队；而处于二线的重要行业企业，如商汤科技、中国电信、京东、360等，则借助其在相关领域的影响力，位列行业第二梯队；紧随各行业巨头之后的是，包括美团联合创始人王慧文、前搜狗CEO王小川等在内的各路知名创业者，他们有认知、有机构加持和相关背景，但由于还处于初始阶段，因此在AI大模型混战中暂居第三梯队。

从分类上来看，围绕通用大模型以及专用大模型，各个企业都有自己的定位和分工。根据业内人士介绍，目前国内大模型主要可以分为两类：一类是对标GPT的通用大模型，聚焦基础层的公司，如阿里、百度等公司；另一类是在开源大模型基础之上训练垂类大模型，聚焦垂直行业的企业，如应用于金融、医疗、交通等领域的垂类大模型。由于前者的技术要求高、成本大，因此当前很多行业已经开始基于自身的情况，纷纷采取与通用大模型企业合作的方式，来训练适合自己行业的垂类大模型了。

从产业链上来看，算力厂商、云服务厂商、前端应用厂商都有参与，体系完整、联系紧密且范围宽广。目前包括算力厂商英伟达、云服务厂商阿里云，前端应用厂商如金山办公、用友网络、云从科技等，都在积极参与AI大模型的技术研发和场景落地。总之，当前围绕AI大模型的混战正在陡然升温。

通义听悟打响大模型应用第一枪

而从AI大模型涉及的层面来看，主要可以分为应用层、模型层、框架层和芯片层等四个层次，而目前市面上大部分公司都还在模型层，深一点的涉及到框架层和芯片层的研究，前端应用目前业内还没有。作为业内首个公测的大模型应用产品，通义听悟的示范作用极为明显。

一方面，相比底层技术，靠近应用前端的技术价值将更具想象空间。纵观所有的技术演变历史不难发现，技术的价值核心在于应用普及程度，以及对用户问题解决的程度。正因为如此，承担这一职责和使命的前端应用，往往具备更大的想象空间。

以6月1日阿里云推出的通义听悟为例，它通过接入阿里的通义大模型，其作用已经不仅仅是简单的具备音视频转写的工具了，而是已经成为帮助人们在音视频场景之下的高效AI助手了。它为人们提供自动做笔记、整理访谈、提取PPT等多种办公服务，而且能够实现音视频转化成图文内容、分章节摘要和总结全文观点等能力，具备了“类人”的高效检索分类能力。

此外，在细分场景中，它还具备不少“宝藏”功能，比如可以打开Chrome插件，外语学习者和听障人士，可以借助双语悬浮字幕条随时随地看无字幕视频，日程冲突时，听悟还可成为职场人士的“开会替身”，在静音情况下入会AI可代为记录会议、整理要点；转写结果可下载为字幕文件，方便新媒体从业者视频后期制作；听悟梳理的问答回顾可以让记者、分析师、律师、HR等群体整理访谈更高效。总之，在解决具体场景问题的能力上，它已经超出了现有音视频应用的能力范畴，也刷新了以往用户体验的上限，必将在业内掀起不小的风浪。

另一方面，从阿里云自身来说，通义千问大模型刚刚对外推出不久，就能够迅速推出基于AI大模型的技术应用，说明阿里云AI大模型的确已经比较成熟，具备了衍生AI应用的能力。

从模型层到应用层，从AI大模型到大模型应用的诞生，看似简单实则实现起来并不容易。通常来说，垂类应用是依托于通用大模型这个技术底座来实现的，撇开通用大模型的话，这些通常无法实现，而这要求其所依托的通用大模型本身是足够成熟的，否则其很难推出相对好用且超出现有产品能力的应用。拿通义听悟来说，其所呈现的技术实力，在业内并不是所有玩家都有的。

全体系AI基础设施成决胜关键

从AI大模型本身所需要的动轧千亿的参数训练要求来说，其推进的难度和复杂性可能远超外界想象。长远来看，具备全栈AI大模型技术能力和基础设施能力的企业，才能够走得更远。

一来，由于生成式AI的发展速度远超外界预期，任何单一环节的进步对整体的大模型训练促进作用有限。据OpenAI测算，自2012年以来，全球头部的AI模型训练算力需求，3-4个月翻一番，每年增长幅度高达10倍。但根据摩尔定律，芯片计算性能每隔18-24个月才能翻一番，也就说是芯片性能远远跟不上AI大模型的发展要求。具体到相关领域来说，基于CPU的计算体系，难以满足大模型训练之下，高带宽、低时延的网络传输要求，这些问题的解决，依靠单一的“堆砌算力”很难短期内见效，并且可能并不经济，必须借助来自算法、算力、框架等多层次的整体系统支持，才能更好地应对这种变化。

二来，由于发展通用大模型所需要的算力需求大、推理训练成本高、数据量要求高，导致其本身的门槛非常高，不具备全栈大模型研发、场景落地能力、生态开放能力的公司，很难保持较快的更迭速度，很容易被淘汰出局。据业内人士分析，要做成一个成功的可对外商业化输出的通用大模型，需要厂商拥有全栈大模型训练与研发能力，业务场景落地经验、AI安全治理举措，以及生态开放性等核心优势，而一般的企业很难完全具备这些能力。

而阿里云作为亚洲第一、全球第三的云计算服务商，其拥有国内最强的算力支撑体系。比如，阿里云飞天云操作系统，可实现单集群10万台规模、千亿文件数运算能力，其飞天智算平台可实现千卡并行效率达到90%，自研网络架构可对万卡规模的AI集群，提供无拥堵、高性能的集群通讯能力，阿里云自有的深度学习平台PAI，可以将计算资源利用率提高3倍以上，AI训练效率提升11倍，推理效率提升6倍。另外，阿里云还牵头建立了国内最大规模的AI模型服务社区“魔搭”，降低大模型开发成本、助力AI普惠；算法方面，阿里在语言以及多模态能力、超大模型、通用统一模型等多个技术维度，处于国内第一梯队，这都是阿里通义大模型能够迅速“出圈”的核心原因。

三来，从商业可能性来看，拥有全体系AI基础设施能力的公司，在MaaS（模型即服务）到来之后拥有更大的商业价值，在市场竞争方面会有更大的“回旋余地”。以阿里云为例，其后期既可以通过提供通用大模型服务，获取平台服务费；也可以出租算力和推训平台，赚取租金，变现路径相对更多，在市场竞争中可以根据情况灵活调整产品定价，以应对经营挑战。

产业迎来AI惠普时代

随着AI大模型应用的诞生，以深度AI普惠为特征的全新时代，也在逐渐拉开帷幕，AI深度嵌入产业实体，将成为不可逆转的行业趋势。

一方面，通用大模型的高门槛和广泛的垂类领域差异化需求，决定了基于通用大模型的专属大模型和产业应用，会成为未来主流的应用方向，推动AI加速进入千行百业。正如前文所述，通用大模型的高门槛，决定了国内外能够做成通用大模型的公司只是少数，而且随着AI模型变大，AI产业正从“手工作坊”组成的轻工业走向集约化生产，需要高性能、低成本的体系化基础设施，才能完成工业化生产。

这种能力不仅很多中小企业没有，即便是对于各行业头部企业，从0到1优化大模型训练，本身也并不经济，各行各业都需要成本足够低的AI基础设施。而且对于现有的厂商而言，继续加入这个领域“重复造轮子”并无多大必要。相比之下，垂类大模型本身的训练成本相对较低，而且一些专业领域拥有丰富数据场景的公司，做垂直大模型条件更好、数据质量更优，推出的产品更能够适应垂类行业需求，因此未来各类垂类行业GPT，或将成为主流大模型应用，推进AI迅速渗入产业。

另一方面，发展AI大模型的短期瓶颈是算力，长期来看是数据，因此高质量的前端应用有助于加速企业积累充分的数据资产，增强自身长期竞争力，加速产业应用普惠进程。当前来看，大模型的迅速迭代和进化，迫使所有的参与玩家不断累积算力资源，从芯片、云服务等各方面来优化配置，保证大模型训练所需要的算力支持。不过，从更长远来看，训练AI大模型的算法还在不断优化调整之中，未来随着算法的突破，算力可能不再是瓶颈，而高质量的数据资源将成为一种稀缺的资源，会受到更多关注。

作为业内首个基于AI大模型的应用，通义听悟的面世，有利于阿里加速积累优质数据资源，加速产业普惠进程，为更长期的发展奠定良好基础。

以上就是通义听悟诞生背后，AI大模型打响应用第一枪的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/532376.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Linux strings命令如何结合其他命令使用

上一篇 2025年11月9日 11:17:59

OpenAI 网站访问量飙升至10亿次上榜全球访问量最高网站Top20

下一篇 2025年11月9日 11:18:18

用户投稿

JavaScript 中使用多个 querySelector 更新页面元素

本文旨在讲解如何在 JavaScript 的 if 语句中使用多个 querySelector 来更新不同的页面元素，并提供示例代码和注意事项，帮助开发者理解并应用此技术。通过该方法，可以根据特定条件动态修改页面内容，提升用户体验。使用 querySelector 在 if 语句中更新多个元素在…

程序猿
2026年5月10日
1000
用户投稿

控制HTML Canvas颜色空间输出24位深度TIFF图像

本教程详细介绍了如何在web前端环境中，特别是结合`html2canvas`和`canvas-to-tiff`库时，通过明确设置html canvas的颜色空间为`srgb`，从而确保输出24位深度的tiff图像。文章将提供具体的javascript代码示例，并解释其原理，帮助开发者解决canvas…

程序猿
2026年5月10日
1000
用户投稿

HTML中如何实现MathML

答案是利用HTML5原生支持MathML，只需将MathML代码嵌入标签即可，现代浏览器能直接渲染，无需插件；通过CSS可美化公式样式，如字体、颜色、间距等，提升显示效果；对于老旧浏览器，推荐使用MathJax作为兼容方案，支持LaTeX输入并渲染为高质量公式，兼顾可访问性与跨浏览器兼容性。在HT…

程序猿
2026年5月10日
0000
用户投稿

p5.js图像像素化与阈值处理：loadPixels()函数深度解析与性能优化

本教程深入探讨p5.js中`loadpixels()`函数在图像像素化与阈值处理中的应用。我们将重点讲解如何优化`loadpixels()`的调用时机以提升性能，正确计算图像亮度，并构建清晰有效的条件阈值逻辑。文章还涵盖了避免变量命名冲突、选择合适的绘图函数等关键实践，旨在帮助开发者高效、准确地实现…

程序猿
2026年5月10日
0000
用户投稿

JavaScript图形可视化与Canvas编程

Canvas是JavaScript图形可视化核心，通过获取2D上下文实现绘图；可绘制矩形、路径、圆弧并设置样式，结合requestAnimationFrame实现动态柱状图动画。 JavaScript 图形可视化在现代网页开发中扮演着重要角色，尤其适合需要动态展示数据的场景，比如仪表盘、图表、动画和…

程序猿
2026年5月10日
0000
用户投稿

HTML Canvas动画残影消除：实现动态元素无痕移动

本文旨在解决HTML Canvas动画中元素移动时产生的残影问题。通过在每个动画帧开始时清空并重绘Canvas背景，可以有效消除元素留下的“轨迹”，实现平滑、无痕的动态效果。文章将详细介绍背景重绘的实现方法，并提供代码示例，同时探讨如何利用半透明背景创建渐隐残影的进阶技巧。理解Canvas动画中的…

程序猿
2026年5月10日
0000
用户投稿

HTML结构错误解析与W3C验证器指南

本文旨在深入解析常见的html结构错误，特别是涉及` `、“和` `元素的不当使用，这些错误常导致w3c验证器报错。我们将详细阐述这些元素的正确语义和放置规则，解释隐式闭合机制如何引发验证问题，并通过实际代码示例展示如何构建符合标准、易于维护的html文档，从而提升网页的兼容性和可访问性…

程序猿
2026年5月10日
0000
用户投稿

html如何制作水印_HTML水印（文字/图片）添加与设置方法

使用CSS和HTML可实现网页水印，方法包括：一、通过background-image与data URI嵌入斜向文字水印；二、利用伪元素结合transform旋转生成叠加文字层；三、插入img标签或背景图设置固定位置图片水印；四、用Canvas绘制多行斜纹并转Base64作背景；五、通过禁用右键、屏…

程序猿
2026年5月10日
1000
用户投稿

Canvas 环形进度条：实现无动画即时显示百分比的教程

本教程将指导您如何使用html canvas和javascript创建并即时显示一个环形进度条，而无需任何动画过渡。我们将通过调整javascript代码中的关键参数，使得进度条在加载时直接显示目标百分比，并提供优化方案以避免不必要的定时器开销，确保高效且直接的视觉反馈。在Web开发中，进度条是常…

程序猿
2026年5月10日
0000
用户投稿

HTML5画布动画：制作简单动画的代码实现指南

答案：使用HTML5 Canvas API制作动画需先创建canvas元素并获取2D上下文，接着绘制基本图形，通过requestAnimationFrame实现循环更新位置与重绘，结合速度变量和边界检测控制运动，最后用对象数组管理多个动画元素。如果您尝试在网页中创建动态视觉效果，但不知道如何开始，…

程序猿
2026年5月10日
0000
用户投稿

如何自学HTML5_HTML5自学技巧【指南】

掌握HTML5需系统学规范、用平台实操、拆解开源项目、做功能练习、测无障碍性。重点包括语义标签、表单控件、localStorage、Canvas及ARIA等，结合W3C文档、CodePen、GitHub与校验工具实践。如果您希望掌握HTML5的基础知识并独立构建网页，可以从理解其核心语法和语义化结…

程序猿
2026年5月10日
0000
用户投稿

怎样使用JavaScript进行图像处理与滤镜效果实现？

JavaScript通过Canvas API实现图像处理，先加载图像并绘制到canvas，再用getImageData获取像素数据，遍历修改RGB值实现灰度、反色、亮度调节等滤镜，最后用putImageData将结果渲染回canvas。 JavaScript 可以通过 HTML5 的 Canvas …

程序猿
2026年5月10日
0000
用户投稿

HTML5Canvas怎么画图_HTML5Canvas元素绘制图形的基本方法与实例

Canvas通过JavaScript绘制图形，需先创建画布并获取2D上下文；使用fillRect、strokeRect绘矩形，arc绘圆，lineTo连线，结合fillStyle等设样式；示例绘制了黄色笑脸，包含眼嘴，体现其在图形与动画中的灵活性。 HTML5 中的 Canvas 元素提供了一个通过…

程序猿
2026年5月10日
0000
用户投稿

利用CSS实现高性能无缝循环背景动画的实践指南

本教程深入探讨了javascript canvas中实现无缝循环背景动画时可能遇到的常见逻辑问题，例如图像位置重置失效导致动画中断。针对这些挑战，我们提出并详细讲解了如何利用css的`background-repeat`、`transform`和`@keyframes`属性，构建一个高性能、平滑且易…

程序猿
2026年5月10日
0000
用户投稿

PHP图片怎么滤镜_PHP图片滤镜效果实现及图像处理库。

可通过GD库和ImageMagick实现多种PHP图片滤镜。一、灰度滤镜：启用GD后，用imagecreatefromjpeg()加载图像，imagefilter($image, IMG_FILTER_GRAYSCALE)转灰度，保存并释放资源。二、复古滤镜：加载图像后叠加色彩偏移imagefilt…

程序猿
2026年5月10日
0000
用户投稿

p5.js 中函数首次调用耗时较长的原因分析与优化

在 p5.js 中，尤其是在使用 WEBGL 渲染器时，函数首次调用往往比后续调用耗时更长。这是由于图像纹理的初始化和上传过程导致的。首次调用时，需要分配显存、将图像数据复制到显存，并进行着色器编译等操作，这些操作会显著增加耗时。后续调用则可以直接使用缓存的纹理，从而大大提高效率。本文将深入探讨这一…

程序猿
2026年5月10日
0000
用户投稿

使用ThreeJS在Canvas中实现动态图像效果并与DOM同步

本文探讨了如何在网页中利用html `canvas>` 元素，结合threejs库，实现高级动态图像效果并与常规html dom元素完美同步。针对将图像渲染到canvas而非直接使用html “ 标签的挑战，我们揭示了threejs多元素渲染的核心机制，即通过动态调整渲染器的视口和裁剪区域，…

程序猿
2026年5月10日
0000
用户投稿

JavaScript中Base64图片到ImageData数组的转换指南

本文详细介绍了在javascript中如何将base64编码的图片字符串转换为可用于像素级操作的imagedata数组。通过利用html canvas元素和image对象，教程将逐步演示从加载base64图片、绘制到canvas，最终提取imagedata的过程，并提供完整的代码示例及注意事项，帮助…

程序猿
2026年5月10日
0000
用户投稿

html5如何录视频_HTML5录制视频流API使用指南【录制】

可直接在网页中捕获并录制用户摄像头视频流：先用getUserMedia获取媒体流并预览，再通过MediaRecorder API录制为WebM格式，最后合并Blob导出下载；若不支持则回退至Canvas逐帧捕获合成。如果您希望在网页中直接捕获用户的摄像头视频流并进行录制，则可以利用HTML5提供的…

程序猿
2026年5月10日
0000
用户投稿

WebGL异步图像拼接教程：利用帧缓冲区实现高效图像合成

本教程详细探讨了如何在WebGL中异步加载并拼接多张图像，实现动态图像合成。文章首先指出了WebGL默认清除画布的常见问题及其简易解决方案。随后，深入讲解了如何利用帧缓冲区（Framebuffer）进行两阶段渲染，以实现图像的累积和复杂处理，并提供了关键代码示例、坐标系注意事项及性能优化建议，帮助开…

程序猿
2026年5月10日
2000

发表回复

登录后才能评论

通义听悟诞生背后，AI大模型打响应用第一枪

关于作者

相关推荐

发表回复