通义听悟诞生背后,AI大模型打响应用第一枪

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

通义听悟诞生背后,AI大模型打响应用第一枪 图来自Canva可画配

2023年伊始,ChatGPT的爆火出圈,迅速引发了业界对于生成式AI应用的关注,AI大模型的竞争更是愈演愈烈。

作为参与其中的重要玩家,阿里云先是在4月11日举行的阿里云峰会上,推出了通义千问大模型。紧接着6月1日,阿里云宣布通义大模型进展,聚焦音视频内容的AI新品“通义听悟”正式上线,成为国内首个开放公测的大模型应用产品,这意味着阿里云大语言模型,又向前端应用迈进了一大步。同时其基于AI大模型应用的发布,也相当于给当前纷争正劲的“大模型混战”,掷下了一枚重磅炸弹。

千模大战一触即发

近几个月,随着微软、谷歌、亚马逊等硅谷大厂,纷纷公布大模型及AIGC进展,通过AI搜索引擎、AI办公软件等一系列应用打响AI竞赛,国内互联网云大厂也陆续全军出击了。不只是大厂就连很多初创企业,VC/PE机构、各行各业巨头,都涌入了AI大模型赛道,试图从中分一杯羹。据不完全统计,目前公布推出AI大模型计划的大企业,不下于50多家,其他参与者更是不计其数。

从格局上来看,以“BATH”等为代表的互联网科技公司,凭借场景、算力、全栈技术能力等综合实力,稳居行业第一梯队;而处于二线的重要行业企业,如商汤科技、中国电信、京东、360等,则借助其在相关领域的影响力,位列行业第二梯队;紧随各行业巨头之后的是,包括美团联合创始人王慧文、前搜狗CEO王小川等在内的各路知名创业者,他们有认知、有机构加持和相关背景,但由于还处于初始阶段,因此在AI大模型混战中暂居第三梯队。

从分类上来看,围绕通用大模型以及专用大模型,各个企业都有自己的定位和分工。根据业内人士介绍,目前国内大模型主要可以分为两类:一类是对标GPT的通用大模型,聚焦基础层的公司,如阿里、百度等公司;另一类是在开源大模型基础之上训练垂类大模型,聚焦垂直行业的企业,如应用于金融、医疗、交通等领域的垂类大模型。由于前者的技术要求高、成本大,因此当前很多行业已经开始基于自身的情况,纷纷采取与通用大模型企业合作的方式,来训练适合自己行业的垂类大模型了。

从产业链上来看,算力厂商、云服务厂商、前端应用厂商都有参与,体系完整、联系紧密且范围宽广。目前包括算力厂商英伟达、云服务厂商阿里云,前端应用厂商如金山办公、用友网络、云从科技等,都在积极参与AI大模型的技术研发和场景落地。总之,当前围绕AI大模型的混战正在陡然升温。

通义听悟打响大模型应用第一枪

而从AI大模型涉及的层面来看,主要可以分为应用层、模型层、框架层和芯片层等四个层次,而目前市面上大部分公司都还在模型层,深一点的涉及到框架层和芯片层的研究,前端应用目前业内还没有。作为业内首个公测的大模型应用产品,通义听悟的示范作用极为明显。

一方面,相比底层技术,靠近应用前端的技术价值将更具想象空间。纵观所有的技术演变历史不难发现,技术的价值核心在于应用普及程度,以及对用户问题解决的程度。正因为如此,承担这一职责和使命的前端应用,往往具备更大的想象空间。

以6月1日阿里云推出的通义听悟为例,它通过接入阿里的通义大模型,其作用已经不仅仅是简单的具备音视频转写的工具了,而是已经成为帮助人们在音视频场景之下的高效AI助手了。它为人们提供自动做笔记、整理访谈、提取PPT等多种办公服务,而且能够实现音视频转化成图文内容、分章节摘要和总结全文观点等能力,具备了“类人”的高效检索分类能力。

此外,在细分场景中,它还具备不少“宝藏”功能,比如可以打开Chrome插件,外语学习者和听障人士,可以借助双语悬浮字幕条随时随地看无字幕视频,日程冲突时,听悟还可成为职场人士的“开会替身”,在静音情况下入会AI可代为记录会议、整理要点;转写结果可下载为字幕文件,方便新媒体从业者视频后期制作;听悟梳理的问答回顾可以让记者、分析师、律师、HR等群体整理访谈更高效。总之,在解决具体场景问题的能力上,它已经超出了现有音视频应用的能力范畴,也刷新了以往用户体验的上限,必将在业内掀起不小的风浪。

另一方面,从阿里云自身来说,通义千问大模型刚刚对外推出不久,就能够迅速推出基于AI大模型的技术应用,说明阿里云AI大模型的确已经比较成熟,具备了衍生AI应用的能力。

从模型层到应用层,从AI大模型到大模型应用的诞生,看似简单实则实现起来并不容易。通常来说,垂类应用是依托于通用大模型这个技术底座来实现的,撇开通用大模型的话,这些通常无法实现,而这要求其所依托的通用大模型本身是足够成熟的,否则其很难推出相对好用且超出现有产品能力的应用。拿通义听悟来说,其所呈现的技术实力,在业内并不是所有玩家都有的。

全体系AI基础设施成决胜关键

从AI大模型本身所需要的动轧千亿的参数训练要求来说,其推进的难度和复杂性可能远超外界想象。长远来看,具备全栈AI大模型技术能力和基础设施能力的企业,才能够走得更远。

一来,由于生成式AI的发展速度远超外界预期,任何单一环节的进步对整体的大模型训练促进作用有限。据OpenAI测算,自2012年以来,全球头部的AI模型训练算力需求,3-4个月翻一番,每年增长幅度高达10倍。但根据摩尔定律,芯片计算性能每隔18-24个月才能翻一番,也就说是芯片性能远远跟不上AI大模型的发展要求。具体到相关领域来说,基于CPU的计算体系,难以满足大模型训练之下,高带宽、低时延的网络传输要求,这些问题的解决,依靠单一的“堆砌算力”很难短期内见效,并且可能并不经济,必须借助来自算法、算力、框架等多层次的整体系统支持,才能更好地应对这种变化。

二来,由于发展通用大模型所需要的算力需求大、推理训练成本高、数据量要求高,导致其本身的门槛非常高,不具备全栈大模型研发、场景落地能力、生态开放能力的公司,很难保持较快的更迭速度,很容易被淘汰出局。据业内人士分析,要做成一个成功的可对外商业化输出的通用大模型,需要厂商拥有全栈大模型训练与研发能力,业务场景落地经验、AI安全治理举措,以及生态开放性等核心优势,而一般的企业很难完全具备这些能力。

而阿里云作为亚洲第一、全球第三的云计算服务商,其拥有国内最强的算力支撑体系。比如,阿里云飞天云操作系统,可实现单集群10万台规模、千亿文件数运算能力,其飞天智算平台可实现千卡并行效率达到90%,自研网络架构可对万卡规模的AI集群,提供无拥堵、高性能的集群通讯能力,阿里云自有的深度学习平台PAI,可以将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍。另外,阿里云还牵头建立了国内最大规模的AI模型服务社区“魔搭”,降低大模型开发成本、助力AI普惠;算法方面,阿里在语言以及多模态能力、超大模型、通用统一模型等多个技术维度,处于国内第一梯队,这都是阿里通义大模型能够迅速“出圈”的核心原因。

三来,从商业可能性来看,拥有全体系AI基础设施能力的公司,在MaaS(模型即服务)到来之后拥有更大的商业价值,在市场竞争方面会有更大的“回旋余地”。以阿里云为例,其后期既可以通过提供通用大模型服务,获取平台服务费;也可以出租算力和推训平台,赚取租金,变现路径相对更多,在市场竞争中可以根据情况灵活调整产品定价,以应对经营挑战。

产业迎来AI惠普时代

随着AI大模型应用的诞生,以深度AI普惠为特征的全新时代,也在逐渐拉开帷幕,AI深度嵌入产业实体,将成为不可逆转的行业趋势。

一方面,通用大模型的高门槛和广泛的垂类领域差异化需求,决定了基于通用大模型的专属大模型和产业应用,会成为未来主流的应用方向,推动AI加速进入千行百业。正如前文所述,通用大模型的高门槛,决定了国内外能够做成通用大模型的公司只是少数,而且随着AI模型变大,AI产业正从“手工作坊”组成的轻工业走向集约化生产,需要高性能、低成本的体系化基础设施,才能完成工业化生产。

这种能力不仅很多中小企业没有,即便是对于各行业头部企业,从0到1优化大模型训练,本身也并不经济,各行各业都需要成本足够低的AI基础设施。而且对于现有的厂商而言,继续加入这个领域“重复造轮子”并无多大必要。相比之下,垂类大模型本身的训练成本相对较低,而且一些专业领域拥有丰富数据场景的公司,做垂直大模型条件更好、数据质量更优,推出的产品更能够适应垂类行业需求,因此未来各类垂类行业GPT,或将成为主流大模型应用,推进AI迅速渗入产业。

另一方面,发展AI大模型的短期瓶颈是算力,长期来看是数据,因此高质量的前端应用有助于加速企业积累充分的数据资产,增强自身长期竞争力,加速产业应用普惠进程。当前来看,大模型的迅速迭代和进化,迫使所有的参与玩家不断累积算力资源,从芯片、云服务等各方面来优化配置,保证大模型训练所需要的算力支持。不过,从更长远来看,训练AI大模型的算法还在不断优化调整之中,未来随着算法的突破,算力可能不再是瓶颈,而高质量的数据资源将成为一种稀缺的资源,会受到更多关注。

作为业内首个基于AI大模型的应用,通义听悟的面世,有利于阿里加速积累优质数据资源,加速产业普惠进程,为更长期的发展奠定良好基础。

以上就是通义听悟诞生背后,AI大模型打响应用第一枪的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/532376.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Linux strings命令如何结合其他命令使用
上一篇 2025年11月9日 11:17:59
OpenAI 网站访问量飙升至10亿次 上榜全球访问量最高网站Top20
下一篇 2025年11月9日 11:18:18

相关推荐

  • JavaScript 中使用多个 querySelector 更新页面元素

    本文旨在讲解如何在 JavaScript 的 if 语句中使用多个 querySelector 来更新不同的页面元素,并提供示例代码和注意事项,帮助开发者理解并应用此技术。通过该方法,可以根据特定条件动态修改页面内容,提升用户体验。 使用 querySelector 在 if 语句中更新多个元素 在…

    2026年5月10日
    100
  • 控制HTML Canvas颜色空间输出24位深度TIFF图像

    本教程详细介绍了如何在web前端环境中,特别是结合`html2canvas`和`canvas-to-tiff`库时,通过明确设置html canvas的颜色空间为`srgb`,从而确保输出24位深度的tiff图像。文章将提供具体的javascript代码示例,并解释其原理,帮助开发者解决canvas…

    2026年5月10日
    100
  • HTML中如何实现MathML

    答案是利用HTML5原生支持MathML,只需将MathML代码嵌入标签即可,现代浏览器能直接渲染,无需插件;通过CSS可美化公式样式,如字体、颜色、间距等,提升显示效果;对于老旧浏览器,推荐使用MathJax作为兼容方案,支持LaTeX输入并渲染为高质量公式,兼顾可访问性与跨浏览器兼容性。 在HT…

    2026年5月10日
    000
  • p5.js图像像素化与阈值处理:loadPixels()函数深度解析与性能优化

    本教程深入探讨p5.js中`loadpixels()`函数在图像像素化与阈值处理中的应用。我们将重点讲解如何优化`loadpixels()`的调用时机以提升性能,正确计算图像亮度,并构建清晰有效的条件阈值逻辑。文章还涵盖了避免变量命名冲突、选择合适的绘图函数等关键实践,旨在帮助开发者高效、准确地实现…

    2026年5月10日
    000
  • JavaScript图形可视化与Canvas编程

    Canvas是JavaScript图形可视化核心,通过获取2D上下文实现绘图;可绘制矩形、路径、圆弧并设置样式,结合requestAnimationFrame实现动态柱状图动画。 JavaScript 图形可视化在现代网页开发中扮演着重要角色,尤其适合需要动态展示数据的场景,比如仪表盘、图表、动画和…

    2026年5月10日
    000
  • HTML Canvas动画残影消除:实现动态元素无痕移动

    本文旨在解决HTML Canvas动画中元素移动时产生的残影问题。通过在每个动画帧开始时清空并重绘Canvas背景,可以有效消除元素留下的“轨迹”,实现平滑、无痕的动态效果。文章将详细介绍背景重绘的实现方法,并提供代码示例,同时探讨如何利用半透明背景创建渐隐残影的进阶技巧。 理解Canvas动画中的…

    2026年5月10日
    000
  • HTML结构错误解析与W3C验证器指南

    本文旨在深入解析常见的html结构错误,特别是涉及` `、“和` `元素的不当使用,这些错误常导致w3c验证器报错。我们将详细阐述这些元素的正确语义和放置规则,解释隐式闭合机制如何引发验证问题,并通过实际代码示例展示如何构建符合标准、易于维护的html文档,从而提升网页的兼容性和可访问性…

    2026年5月10日
    000
  • html如何制作水印_HTML水印(文字/图片)添加与设置方法

    使用CSS和HTML可实现网页水印,方法包括:一、通过background-image与data URI嵌入斜向文字水印;二、利用伪元素结合transform旋转生成叠加文字层;三、插入img标签或背景图设置固定位置图片水印;四、用Canvas绘制多行斜纹并转Base64作背景;五、通过禁用右键、屏…

    2026年5月10日
    100
  • Canvas 环形进度条:实现无动画即时显示百分比的教程

    本教程将指导您如何使用html canvas和javascript创建并即时显示一个环形进度条,而无需任何动画过渡。我们将通过调整javascript代码中的关键参数,使得进度条在加载时直接显示目标百分比,并提供优化方案以避免不必要的定时器开销,确保高效且直接的视觉反馈。 在Web开发中,进度条是常…

    2026年5月10日
    000
  • HTML5画布动画:制作简单动画的代码实现指南

    答案:使用HTML5 Canvas API制作动画需先创建canvas元素并获取2D上下文,接着绘制基本图形,通过requestAnimationFrame实现循环更新位置与重绘,结合速度变量和边界检测控制运动,最后用对象数组管理多个动画元素。 如果您尝试在网页中创建动态视觉效果,但不知道如何开始,…

    2026年5月10日
    000
  • 如何自学HTML5_HTML5自学技巧【指南】

    掌握HTML5需系统学规范、用平台实操、拆解开源项目、做功能练习、测无障碍性。重点包括语义标签、表单控件、localStorage、Canvas及ARIA等,结合W3C文档、CodePen、GitHub与校验工具实践。 如果您希望掌握HTML5的基础知识并独立构建网页,可以从理解其核心语法和语义化结…

    2026年5月10日
    000
  • 怎样使用JavaScript进行图像处理与滤镜效果实现?

    JavaScript通过Canvas API实现图像处理,先加载图像并绘制到canvas,再用getImageData获取像素数据,遍历修改RGB值实现灰度、反色、亮度调节等滤镜,最后用putImageData将结果渲染回canvas。 JavaScript 可以通过 HTML5 的 Canvas …

    2026年5月10日
    000
  • HTML5Canvas怎么画图_HTML5Canvas元素绘制图形的基本方法与实例

    Canvas通过JavaScript绘制图形,需先创建画布并获取2D上下文;使用fillRect、strokeRect绘矩形,arc绘圆,lineTo连线,结合fillStyle等设样式;示例绘制了黄色笑脸,包含眼嘴,体现其在图形与动画中的灵活性。 HTML5 中的 Canvas 元素提供了一个通过…

    2026年5月10日
    000
  • 利用CSS实现高性能无缝循环背景动画的实践指南

    本教程深入探讨了javascript canvas中实现无缝循环背景动画时可能遇到的常见逻辑问题,例如图像位置重置失效导致动画中断。针对这些挑战,我们提出并详细讲解了如何利用css的`background-repeat`、`transform`和`@keyframes`属性,构建一个高性能、平滑且易…

    2026年5月10日
    000
  • PHP图片怎么滤镜_PHP图片滤镜效果实现及图像处理库。

    可通过GD库和ImageMagick实现多种PHP图片滤镜。一、灰度滤镜:启用GD后,用imagecreatefromjpeg()加载图像,imagefilter($image, IMG_FILTER_GRAYSCALE)转灰度,保存并释放资源。二、复古滤镜:加载图像后叠加色彩偏移imagefilt…

    2026年5月10日
    000
  • p5.js 中函数首次调用耗时较长的原因分析与优化

    在 p5.js 中,尤其是在使用 WEBGL 渲染器时,函数首次调用往往比后续调用耗时更长。这是由于图像纹理的初始化和上传过程导致的。首次调用时,需要分配显存、将图像数据复制到显存,并进行着色器编译等操作,这些操作会显著增加耗时。后续调用则可以直接使用缓存的纹理,从而大大提高效率。本文将深入探讨这一…

    2026年5月10日
    000
  • 使用ThreeJS在Canvas中实现动态图像效果并与DOM同步

    本文探讨了如何在网页中利用html `canvas>` 元素,结合threejs库,实现高级动态图像效果并与常规html dom元素完美同步。针对将图像渲染到canvas而非直接使用html “ 标签的挑战,我们揭示了threejs多元素渲染的核心机制,即通过动态调整渲染器的视口和裁剪区域,…

    2026年5月10日
    000
  • JavaScript中Base64图片到ImageData数组的转换指南

    本文详细介绍了在javascript中如何将base64编码的图片字符串转换为可用于像素级操作的imagedata数组。通过利用html canvas元素和image对象,教程将逐步演示从加载base64图片、绘制到canvas,最终提取imagedata的过程,并提供完整的代码示例及注意事项,帮助…

    2026年5月10日
    000
  • html5如何录视频_HTML5录制视频流API使用指南【录制】

    可直接在网页中捕获并录制用户摄像头视频流:先用getUserMedia获取媒体流并预览,再通过MediaRecorder API录制为WebM格式,最后合并Blob导出下载;若不支持则回退至Canvas逐帧捕获合成。 如果您希望在网页中直接捕获用户的摄像头视频流并进行录制,则可以利用HTML5提供的…

    2026年5月10日
    000
  • WebGL异步图像拼接教程:利用帧缓冲区实现高效图像合成

    本教程详细探讨了如何在WebGL中异步加载并拼接多张图像,实现动态图像合成。文章首先指出了WebGL默认清除画布的常见问题及其简易解决方案。随后,深入讲解了如何利用帧缓冲区(Framebuffer)进行两阶段渲染,以实现图像的累积和复杂处理,并提供了关键代码示例、坐标系注意事项及性能优化建议,帮助开…

    2026年5月10日
    200

发表回复

登录后才能评论
关注微信