AI行业研报:生成式文字后即将爆发生成式音频?

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AI行业研报:生成式文字后即将爆发生成式音频?

在爆发全球热潮前,人工智能是经过了多年酝酿的。为了正确预测未来的人工智能创新,我们回到源头,研究了人工智能应用的专利和风险投资交易活动。

我们收集了193个世界知识产权组织(WIPO)成员在2012年至2022年期间公布的175072项人工智能专利,分为五大类。对于风险资本投资,我们使用了经合组织(OECD)人工智能数据库2012年至2022年92个经济体的24310笔交易数据。

按绝对值计算,自2012年以来,人工智能领域的风险投资活动和专利数量激增。期间,风险投资交易数量增加了10倍,达到3884笔,2022年的交易价值几乎是2012年的50倍,达到830亿美元。与此同时,人工智能专利数量在2022年增长了7倍,达到近3.7万个。

从风险投资交易和专利来看,过去10年,超过三分之二的人工智能创新集中在交通、工业和消费等行业应用上。

接下来,我们预计生成式音频(generative audio)将在2024年大规模出现,并颠覆游戏和电影制作等行业。

AI行业研报:生成式文字后即将爆发生成式音频?

人工智能走出冬眠

随着OpenAI的ChatGPT于2022年11月发布,人们对人工智能的兴趣激增,不仅是普通人,企业也是如此。2022年,公司文件中提到“人工智能”的次数超过71.5万次,而2020年仅为13.5万次。根据我们的调查,到2023年4月,41%的美国人已经听说过ChatGPT,而近60%的人表示他们的工作已经在某种程度上开始使用ChatGPT。

AI行业研报:生成式文字后即将爆发生成式音频?

此外,在5月18日的新闻中,ChatGPT在美国发布了第一个应用程序版本后,现在可以在iPhone上使用。谷歌还于5月5日宣布,将开始推出集成到搜索产品中的生成式人工智能工具。在进一步研究之前,我们先对人工智能进行简单的定义——人工智能是一种基于机器的系统,人类给出一组给定的目标,它可以作出预测、建议甚至决定,从而可能影响现实或虚拟环境。

人工智能其实已经酝酿了好几年。自2012年以来,与人工智能相关的风险投资交易活动和已公布的专利一直在悄然飙升。例如,风投数量从2012年的332笔增长到2022年的3884笔。2022年,风投交易价值达到830亿美元,高于2012年的18亿美元。与此同时,自2012年以来,人工智能方面的专利数量增加了7倍。

人工智能行业的进入门槛一直在降低,这刺激了该领域的商业创新。例如,自2018年以来,图像分类系统的训练成本降低了64%,而训练时间减少了94%。包括OpenAI、Anthropic、Stability AI、A121 Labs、Midjourney和Cohere在内的众多初创公司和风投公司也纷纷涌现。据报道,Anthropic最近在C轮融资中筹集了4.5亿美元,参与融资的有Alphabet、赛富时(Salesforce)和Zoom。此外,一家伦敦的人工智能公司Builder. Ai在最新一轮融资中筹集了2.5亿美元。

为了正确预测人工智能即将到来的情况,我们还研究了该领域的专利。我们预计,获得风投的公司大约需要两到三年时间才能将产品推向市场,甚至需要更长的时间等待专利批准,如七至十年。就专利而言,在公司专利获得保护后,他们则需要营销,选择商业伙伴等,这大概需要一到三年时间。

通过世界知识产权组织Patentscope,我们收集了193个该组织成员在2012年至2022年期间公布的175072项人工智能专利条目,这些专利分为五大类,其中包括部门应用(sectoral applications)、服务平台(horizontal platforms)、自动化机器(autonomous machines)和半导体(semiconductors)。在风投方面,我们使用的是经合组织人工智能数据库涵盖的92个经济体的24310笔交易。

1. 人工智能景观——将创意带入生活

股票市场反应如何

迅速采用ChatGPT和其他新的人工智能的公司股价飙升。例如,2023年1月31日,人工智能软件企业C3. ai推出了集OpenAI、谷歌、学术研究等人工智能技术于一体的“生成式人工智能产品套件”。当日,该公司股价上涨近22%,自今年年初以来已累计上涨143%。

人工智能音频和语音识别软件公司SoundHound的股价今年迄今已上涨66%。

不仅仅是人工智能软件公司,人工智能几乎影响了价值链上的所有公司。英伟达是一家半导体公司,其生产的计算机芯片可以运行人工智能模型,该公司股价上涨了110%。在大型科技公司之间的人工智能竞赛中,Meta也表现出色。

AI行业研报:生成式文字后即将爆发生成式音频?

资金流向人工智能

2022年,全球对人工智能的风险投资达到830亿美元的峰值,高于2012年的18亿美元。Databricks和麻省理工学院发现,大多数公司已经开始广泛部署人工智能。在样本中,到2022年未使用人工智能的公司比例不到6%。

AI行业研报:生成式文字后即将爆发生成式音频?

企业将从人工智能增长中受益

多年来,人工智能研究一直局限于学术界,如今正被应用于商业领域。学术界是先行者,从学术发表到获得专利通常需要15年的时间。

然而,越来越明显的是,人工智能创新爆发的时机已经成熟。从2012年到2022年,49%的风投交易是在过去三年达成的。同样,我们的数据库中有52%的人工智能相关专利在三年内发布。

AI行业研报:生成式文字后即将爆发生成式音频?

2. 应用领域:人工智能将在2023年成为主流

亚马逊创始人兼执行主席Jeff Bezos表示:“我们现在正在用机器学习和人工智能来解决问题,现在发生的这一切犹如科幻小说里描述的内容。”

过去10年,与人工智能相关的风投交易中,近五分之四是在行业应用领域。另有8%发生在自动化机器和汽车领域,还有13%发生在半导体领域。人工智能相关专利的比例也类似。

AI行业研报:生成式文字后即将爆发生成式音频?

行业应用:人工智能不局限于一个行业

目前,79%的风投交易和61%的专利发生在我们认为的“行业应用”中。根据我们的定义,这包括消费、工业、资讯科技、运输、医疗保健、金融服务业。

从2012年到2022年,风投交易数量从270笔增加到3006笔,增长了10倍多。2022年,交易总额达到620亿美元,远高于2012年的13亿美元。在这些领域发布的专利也在蓬勃发展。自2012年以来,相关专利数量增加了6倍。拥有最多专利的公司都是公认的科技巨头,如IBM、三星(Samsung)、英特尔(Intel)、LG电子(LG Electronics)和高通(Qualcomm)。

AI行业研报:生成式文字后即将爆发生成式音频?

服务平台:AI工具

自2012年以来,我们看到服务平台(horizontal platforms)的专利数量增长了近6倍,包括人工智能主核(AI core)、自然语言技术(natural language technology)、人工智能自动化平台(AI automation platforms)、计算机视觉软件(computer vision software)。服务型应用(Horizontal applications)是人工智能开发和部署的重点模块,拥有这类专利的公司包括AT&T、IBM、LG电子、百度以及老牌科技企业。

AI行业研报:生成式文字后即将爆发生成式音频?

自然语言处理(Natural language processing)是一种用于大型语言模型(LLMs)的人工智能工具,随着ChatGPT的出现而变得流行。自然语言处理的一些例子包括翻译、自动纠错、自动文本摘要、聊天机器人,以及金融领域的信息需求等处理方式。

计算机视觉涉及使用人工智能来分析视觉数据,并做出有意义的预测,包括面部识别、地理空间分析等。

微软的Inner Eye技术已经可以帮助检测肿瘤和异常细胞。在他们的最新研究中,微软展示了其技术如何帮助临床医生。在计算机视觉专利数量最多的五家公司中,有两家是中国公司,分别是百度和华为。

谁还需要驾照?自动驾驶已经到来

AI行业研报:生成式文字后即将爆发生成式音频?

在过去十年中,8%的风投交易和16%的专利都发生在“自动化机器”领域。这类技术涵盖两个关键领域,分别是自动驾驶汽车和智能机器人。在过去的十年里,这个领域受到了很多关注。这在很大程度上与特斯拉取得的成功相吻合,特斯拉一直在试验自动驾驶汽车系统。

从2012年到2022年,自动化机器领域的风投交易数量从22笔增加到363笔。智能机器人就属于这一类。这些机器人能够在不需要人类干预和输入的情况下进行一定程度的操作。人工智能通常用于协助机器人机型训练和适应。三星、LG电子、英特尔以及中国的大疆公司和滴滴等公司在机器人专利方面地位稳固。

几年来,自动驾驶汽车也一直是人们讨论的焦点。除了特斯拉之外,其他公司也在扩大对自动驾驶汽车所需技术的研究和投资,因此,风险投资和专利申请的大幅增加很可能是在这个背景下发生的。

半导体芯片

英伟达首席执行官黄仁勋表示:“很明显,人工智能将影响每一个行业。我认为每个国家都需要确保人工智能是其国家战略的一部分,每个国家都会受到影响。”

AI行业研报:生成式文字后即将爆发生成式音频?

半导体占人工智能相关风投交易的13%,占已公布专利的4%,包括处理器设计(processor design)、边缘人工智能软件(edge AI software)、智能传感器和设备(intelligent sensors & devices)。

从2012年到2022年,半导体领域的风投交易从40笔增加到515笔。2022年,该领域交易总额达到94亿美元,高于2012年的2亿美元。同样,从2012年到2022年,该领域专利数量增长了7倍。

自20世纪70年代以来,芯片经历了快速的创新,芯片性能每隔几年就会翻一番。生产商必须跟上发展的步伐,否则就有被甩在后面的风险。随着技术变得越来越复杂,新工具是必要的,这正是人工智能可以发挥作用的地方。

3. 2024年及以后的新机遇

生成式音频可能是下一个大热门

AI行业研报:生成式文字后即将爆发生成式音频?

人工智能现在能够根据不同语言、口音和方言的文本输入创造人类的声音和合成音频。它使用了在ChatGPT中流行的生成式人工智能。

从2020年第一季度到2022年第四季度,提到“生成式音频(generative audio)”的公司文件数量增加了13倍以上。

随着音乐和声音研发的深入,我们可能会看到新竞争者的爆炸式增长。很快,人们可以输入文本或图像来生成音频内容,而不需要音频专家或计算机专家。

这可能会影响游戏、通信、音乐、新闻和医疗保健等一系列领域。拥有生成式音频相关专利最多的公司包括索尼(Sony)、亚马逊、华为、字节跳动、Adobe、苹果和腾讯。

可以生成什么音频?

生成式音频分为四个主要类别,包括合成声音(synthetic voice)、语音互动(speech interaction)、音乐生成(music generation)和音频编辑(audio editing)。首先,通过深度学习,人工智能可以高质量地合成真实的人声,包括音高、音调和节奏。语音互动包括虚拟助手等技术,例如苹果的Siri和亚马逊的Alexa。随着技术的发展,人类与人工智能之间的“自然”互动可能会越来越多。

音乐生成技术可以轻松地创造出种类繁多的新音乐。例如Spotify的DJ和Aimi Studio。人工智能音乐已经对音乐产业构成了挑战。

最后,音频编辑可以使用人工智能来提高音频录制质量。

AI行业研报:生成式文字后即将爆发生成式音频?

结论

人工智能来了,新的创新就在眼前。以专利和风险投资等指标进行衡量,人工智能领域的创新在过去10年呈爆炸式增长。从风险投资活动和专利来看,过去十年中,超过三分之二的人工智能创新集中在交通、工业和消费者应用等领域,其次是自动化机器和服务型应用、半导体产业。

在2023年之后,我们预计生成音频创新将会激增。随着ChatGPT和DALL-E的到来,我们已经看到生成式人工智能引起了世界的关注。这些技术将共同改变游戏和电影制作等行业。

作 者 | BT财经

来 源 | 德意志银行

以上就是AI行业研报:生成式文字后即将爆发生成式音频?的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/526348.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 08:16:30
下一篇 2025年11月9日 08:21:10

相关推荐

  • RSS如何实现动态内容过滤?

    要实现rss动态内容过滤,核心在于引入“智能代理”对原始feed进行二次处理。具体路径包括:1.使用内置过滤功能的rss阅读器,如feedly、inoreader等,适合简单筛选;2.借助ifttt或zapier等自动化平台作为中间件,支持条件判断和内容分发;3.自建解析器,利用python、nod…

    2025年12月17日
    000
  • Python AsyncElasticsearch 异步批量操作实践

    本教程旨在指导开发者如何在Python中使用AsyncElasticsearch客户端高效执行异步批量操作。针对helpers.actions.bulk不支持异步客户端的问题,文章详细介绍了如何利用elasticsearch.helpers.async_bulk这一专为异步设计的辅助函数,实现数据的…

    2025年12月14日
    000
  • ChatGPT冲击下,国内技术问答社区如何突围?

    ChatGPT的崛起对全球技术问答社区造成了巨大冲击,Stack Overflow的困境更是敲响了警钟。国内技术问答平台,例如SegmentFault,也面临着同样的挑战。它们该如何应对呢? SegmentFault长期以来专注于为开发者提供高质量的技术问答服务,并不断优化用户体验。这包括持续改进平…

    2025年12月13日
    000
  • Flask流式传输如何模拟ChatGPT的实时响应?

    使用Flask流式传输模拟ChatGPT实时响应 许多应用,例如模拟ChatGPT的实时聊天或大型文件下载,都需要边生成边传输数据,避免客户端长时间等待。本文演示如何在Python Flask框架中实现这种流式传输,并修正原代码中的缺陷。 原代码尝试使用yield实现流式传输,但由于response…

    2025年12月13日
    000
  • Flask如何实现类似ChatGPT的实时数据流传输?

    使用Flask框架构建实时数据流:模拟ChatGPT响应 在Flask Web应用开发中,常常需要模拟ChatGPT的实时数据传输效果,即数据生成的同时即时传输给客户端,而非等待所有数据生成完毕再一起发送。本文将介绍如何利用Flask实现这种流式传输,并解决传统方法中存在的延迟问题。 传统方法的问题…

    2025年12月13日
    000
  • Flask如何实现类似ChatGPT的实时流式响应?

    使用Flask模拟ChatGPT的实时流式响应 许多开发者希望在Flask应用中实现类似ChatGPT的实时响应效果:内容生成过程中持续传输给客户端。然而,简单的Flask response 对象无法满足此需求,它会等待生成器函数完全执行后才发送结果。本文探讨如何利用Flask框架实现真正的流式传输…

    2025年12月13日
    000
  • ChatGPT冲击下,SegmentFault的生存策略是什么?

    ChatGPT的崛起对开发者社区带来了巨大冲击,Stack Overflow的困境已敲响警钟。SegmentFault作为国内领先的开发者社区,如何应对ChatGPT带来的挑战,确保自身持续发展? SegmentFault的核心竞争力在于庞大的中文开发者用户群体和高质量的技术问答内容。然而,Chat…

    2025年12月13日
    000
  • 如何通过 ADB 控制小米手机进行长截图并保存到手机上?

    ADB控制小米手机长截图:探索与实践 许多Android用户需要截取超出屏幕范围的内容,特别是包含滚动内容的页面。本文探讨如何利用ADB (Android Debug Bridge) 在小米手机上实现长截图并保存到手机。目标是截取1600×720分辨率屏幕的完整内容,生成3200&#215…

    2025年12月13日
    000
  • ChatGPT时代,技术问答社区思否如何应对挑战?

    ChatGPT浪潮下,技术问答社区思否(SegmentFault)如何突围? Stack Overflow近期面临挑战,其CEO公开承认公司正经历艰难时期,这与ChatGPT等大型语言模型的崛起息息相关。那么,作为另一个重要的技术问答社区,思否将如何应对这一挑战呢? 本文将分析思否可能的应对策略。参…

    2025年12月13日
    000
  • Flask框架下如何实现ChatGPT式的流式文本传输?

    使用Flask框架构建类似ChatGPT的流式文本传输应用 许多开发者希望利用Flask框架创建类似ChatGPT的应用,实现文本内容的实时生成和传输。然而,Flask的response对象并非为这种场景设计,它会在生成器函数完全执行后才开始返回数据。本文将介绍如何使用Flask的stream_wi…

    2025年12月13日
    000
  • Python的GIL:究竟是作用于整个进程还是每个线程?

    python全局解释器锁(gil)详解:作用范围及误区 Python的GIL (全局解释器锁) 限制了多线程程序的性能,但其作用范围常常被误解。本文将澄清GIL究竟作用于进程还是线程。 许多Python开发者对GIL有所了解,但关于GIL是否作用于每个线程,存在疑问。 这种疑问可能源于与AI模型(例…

    2025年12月13日
    000
  • ChatGPT时代,SegmentFault如何应对开发者问答社区的挑战?

    大型语言模型(LLM)如ChatGPT的崛起,给开发者问答社区带来了前所未有的挑战。Stack Overflow的困境已为业界敲响警钟。那么,SegmentFault将如何应对ChatGPT带来的冲击,保持其在开发者社区中的领先地位呢? ChatGPT能够快速生成代码和答案,这无疑会对Segment…

    2025年12月13日
    000
  • Flask框架如何实现类似ChatGPT的实时流式数据传输?

    使用Flask框架构建实时流式数据传输,如同ChatGPT的即时响应 许多开发者希望在Flask应用中实现类似ChatGPT的实时响应效果:数据生成的同时即时传输给客户端。然而,简单的yield语句无法直接实现这一目标。本文深入探讨如何利用Flask框架高效实现这种流式传输。 问题在于,之前的代码片…

    2025年12月13日
    000
  • Python的GIL:一个进程只有一个,还是每个线程都有一个?

    python全局解释器锁(gil)的真相:只有一个,而非每个线程一个 关于Python的GIL(全局解释器锁),一个常见的误解是它是否每个线程都拥有一个。 事实并非如此。Python进程只有一个GIL。 许多Python开发者对GIL的运作机制有所了解,但一些细节容易混淆。最近,一个截图(此处略去)…

    2025年12月13日
    000
  • 为什么科学家们最初选择Python而非JavaScript进行科学计算?

    Python在科学计算领域的统治地位:从最初的选择到如今的广泛应用 Python在科学计算领域的广泛应用,常常令专注于Web开发并习惯使用JavaScript的开发者感到疑惑。近期ChatGPT源码采用Python编写,更是加剧了这种好奇。JavaScript凭借其丰富的库和框架,在Web开发领域占…

    2025年12月13日
    000
  • Python的全局解释器锁(GIL)究竟作用于进程还是线程?

    Python 全局解释器锁 (GIL) 的作用范围:一个进程只有一个 GIL。 关于 Python 的 GIL 作用范围,存在一些误解。有人认为 GIL 作用于每个线程,也有人认为它作用于整个进程。本文将澄清这个疑问。 Python 的 GIL 仅作用于整个进程,且只有一个 GIL 实例。 这意味着…

    2025年12月13日
    000
  • 为什么科学计算领域偏爱Python而非JavaScript?

    Python在科学计算领域的统治地位:一个前端开发者的视角 ChatGPT源码的公开,让许多前端开发者,例如提问者,开始关注Python在科学计算领域的广泛应用。提问者注意到JavaScript凭借其丰富的库在Web开发中占据主导地位,却好奇为什么科学计算领域偏爱Python。这不仅仅是因为Pyth…

    2025年12月13日
    000
  • 有没有想过像您一样的AI“看到”?初学者&#s注意指南

    在大型语言模型中了解注意力:初学者指南 >您是否曾经想过chatgpt或其他ai模型如何能够很好地理解和响应您的消息?秘密在于一种称为注意的机制 – 一种关键组成部分,可帮助这些模型理解单词之间的关系并产生有意义的响应。让我们简单地将其分解! > 什么是关注? 想象您正在读一…

    2025年12月13日
    000
  • AI模型的兴起,能够在各个行业创建内容,设计和解决方案

    引言 人工智能(AI)已不再是遥不可及的未来科技,它正深刻地改变着当今各行各业。先进的AI模型的出现,彻底革新了企业的内容创作、产品设计以及创新解决方案的开发模式。从AI写作助手到自动化图形设计工具,再到智能化业务解决方案,AI正以前所未有的方式改变着我们的工作方式和人机交互模式。 AI如何重塑内容…

    2025年12月13日
    000
  • OpenAI工具呼叫示例

    from json import loadsfrom signal import signal, sigintfrom requests import get # pip install requestsfrom openai import openai # pip install openai# …

    好文分享 2025年12月13日
    000

发表回复

登录后才能评论
关注微信