AudioStory— 腾讯ARC推出的音频生成模型

程序猿 • 2025年11月1日 21:51:16 • 用户投稿 • 阅读 2

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

腾讯混元文生视频

腾讯发布的AI视频生成大模型技术

137 查看详情

AudioStory是什么

audiostory 是由腾讯 arc 实验室推出的一项创新音频生成技术，能够根据自然语言描述自动生成高质量、连贯的长篇叙事音频。该技术采用“分而治之”的策略，将复杂的叙事指令分解为有序的子任务，并通过独特的解耦桥接机制，精准协调语义内容与音效细节之间的关系。结合端到端的训练方式，audiostory显著提升了模型各模块间的协同能力，生成的音频不仅具备清晰的时序逻辑，还富有情绪层次感，适用于多种复杂场景。

AudioStory的主要功能

视频自动配音：用户只需上传无声音频视频并提供音效风格描述，AudioStory即可智能分析画面内容，生成与画面节奏同步、风格一致的背景音轨。音频智能续写：在输入一段音频后，系统可自动推断后续情境，并生成符合逻辑的音频延续内容。例如，在一段教练指导训练的语音后，自动添加球员跑动声、篮球弹跳声等环境音效。有声书创作支持：为有声读物提供专业级音频生成服务，依据文本内容生成具有叙事节奏和情感变化的语音内容，增强听众的沉浸式体验。游戏音效定制：根据游戏场景的文字描述，生成匹配的环境音效与动作声音，打造更具代入感的游戏听觉氛围。智能播客生成：帮助内容创作者快速生成播客音频，仅需输入话题或脚本描述，即可输出结构完整、语义连贯的音频片段，大幅提升制作效率。

AudioStory的技术原理

分而治之策略：将整体叙事请求拆解为多个有序的子任务，分别生成对应音频片段，再按时间线精确拼接，确保最终输出的音频在结构上连贯、逻辑清晰。解耦桥接机制：将大语言模型与音频生成器之间的协作解耦为“桥梁查询”和“残差查询”两个模块，前者负责单个事件内的语义对齐，后者保障跨事件间的一致性，提升整体生成质量。端到端联合训练：采用统一框架对指令理解与音频生成两个阶段进行联合优化，增强系统内部各组件的协同性，实现更高效的指令响应与音频输出。语义令牌与残差令牌双通道机制：通过双通路并行处理，分别捕捉宏观叙事结构与微观声音细节，有效协调整体逻辑与局部表现，使音频既符合故事情节发展，又具备细腻的声音质感。三阶段渐进式训练：训练过程分为单音生成、多音协同、长序列叙事三个阶段，逐步提升模型对复杂音频叙事的理解与生成能力，确保其在长篇内容中的稳定表现。

AudioStory的项目地址

Github仓库：https://www.php.cn/link/0014fcb3db4c8459d26309b177005b10。论文地址：https://www.php.cn/link/3ca0c25be29a09b50ee4643351b8641b。

AudioStory的应用场景

视频配音：根据用户上传的无声视频及风格偏好，自动分析视觉内容并生成同步、协调的背景音轨。音频续写：基于已有音频片段，预测接下来可能发生的情境，并补充合理的环境音或对话内容，如为运动训练音频添加脚步声与球体碰撞声。有声书创作：依据书籍或文本内容生成富有节奏感与情感起伏的朗读音频，提升有声阅读的吸引力与代入感。游戏音效生成：根据游戏关卡或场景描述，实时生成沉浸式音效，强化玩家在虚拟世界中的听觉体验。

以上就是AudioStory— 腾讯ARC推出的音频生成模型的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/22898.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

如何在Linux云服务器安装其他版本Python环境，附实战小程序

上一篇 2025年11月1日 21:49:13

ThinkPHP的短信功能怎么做？ThinkPHP如何集成短信SDK？

下一篇 2025年11月1日 21:51:22

用户投稿

开源免费PHP工具 PHP开发效率提升利器

推荐开源免费PHP开发工具以提升效率：VS Code、Sublime Text轻量高效，PhpStorm专业强大；调试用Xdebug、Kint、Ray；依赖管理选Composer；代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer；数据库管理可用%ignore_a_1%MyA…

程序猿
2026年5月10日
0000
用户投稿

c++如何实现UDP通信_c++基于UDP的网络通信示例

UDP通信基于套接字实现，适用于实时性要求高的场景。1. 流程包括创建套接字、绑定地址（接收方）、发送（sendto）与接收（recvfrom）数据、关闭套接字；2. 服务端监听指定端口，接收客户端消息并回传；3. 客户端发送消息至服务端并接收响应；4. 跨平台需处理Winsock初始化与库链接，编…

程序猿
2026年5月10日
0000
谷歌浏览器如何截图谷歌浏览器页面截图技巧

使用谷歌浏览器的开发者工具截图步骤：1. 按ctrl+shift+i（windows/linux）或cmd+option+i（mac）打开开发者工具。2. 点击右上角三个点，选择”更多工具”，再选择”截图”。3. 选择截取整个页面。推荐的谷歌浏览器扩展…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

JavaScript计算器开发：解决数值显示与初始化问题

本教程深入探讨了使用JavaScript构建计算器时常见的数值显示异常问题，特别是由于类属性未初始化导致的`Cannot read properties of undefined`错误。我们将详细分析问题根源，并通过在构造函数中调用初始化方法来解决该问题，同时优化显示逻辑，确保计算器功能稳定且界面显…

程序猿
2026年5月10日
0000
用户投稿

NextAuth getToken 在服务端返回 null 的问题排查与解决

问题描述在使用 Next.js 和 NextAuth 构建应用程序时，有时需要在服务端获取用户的身份验证信息。getToken 函数是 NextAuth 提供的一个便捷方法，用于从请求中提取 JWT (JSON Web Token)。然而，在某些情况下，尤其是在使用 getServerSidePr…

程序猿
2026年5月10日
0000
HTML文档如何工作？如何编辑HTML格式文件？

浏览器解析和渲染html的过程包括：1. 解析html构建dom树；2. 结合css构建渲染树；3. 布局计算元素位置；4. 绘制像素到屏幕。编辑html可使用记事本、vs code、sublime text等文本或代码编辑器，其中vs code因语法高亮、自动补全和插件生态成为主流选择。标准htm…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

从 JavaScript 获取 URL 并在 PHP DataGrid 中使用

本文档旨在指导开发者如何从 JavaScript 函数中获取 URL，并将其动态应用于 PHP DataGrid。通过前端 JavaScript 动态生成 API 地址，并将其传递给后端的 PHP DataGrid，实现数据根据用户会话动态加载。动态配置 DataGrid 的 URL 在构建动态 …

程序猿
2026年5月10日
0000
用户投稿

GolangWeb项目异常捕获与日志记录

答案：通过中间件使用defer和recover捕获panic，结合zap等结构化日志库记录请求链路信息，为每个请求生成trace ID，实现异常捕获与可追踪日志，提升系统稳定性与可观测性。在Go语言Web项目中，异常捕获与日志记录是保障系统稳定性和可维护性的关键环节。Go本身没有像其他语言那样的t…

程序猿
2026年5月10日
0000
用户投稿

Python官网用户调查的参与方式_Python官网反馈提交详细教程

答案是通过访问Python官网新闻页面、邮件邀请链接或GitHub仓库提交反馈。具体为：访问官网查找用户调查公告，或点击邮件中的专属链接参与，在GitHub的cpython仓库提交技术建议，并注意如实填写问卷与保护隐私。如果您希望参与Python官网的用户调查并提交反馈，可以通过官方指定的渠道完成…

程序猿
2026年5月10日
0000
用户投稿

Go语言连接外部MySQL数据库：DSN配置与常见错误解析

本文详细阐述了go语言使用`go-sql-driver/mysql`驱动连接外部mysql数据库的正确方法。重点介绍了数据源名称（dsn）的规范格式，特别是主机地址部分的配置，以避免常见的“getaddrinfow: the specified class was not found.”等网络解析错…

程序猿
2026年5月10日
0000
用户投稿

Tensorflow 音乐预测

在本文中，我展示了如何使用张量流来预测音乐风格。在我的示例中，我比较了电子音乐和古典音乐。你可以在我的github上找到代码：https://github.com/victordalet/sound_to_partition i – 数据集第一步，您需要创建一个数据集文件夹，并在里面…

程序猿
2026年5月10日
0000
用户投稿

C++如何编译和链接_C++从源码到可执行文件的过程解析

c++kquote>预处理展开宏和头文件，编译生成汇编代码，汇编转为机器码，链接合并目标文件与库生成可执行程序。当你写完一段C++代码，比如一个简单的hello world程序，最终能运行起来，背后其实经历了一系列步骤：预处理、编译、汇编和链接。这个过程将人类可读的源码转换成机器可以执行的程…

程序猿
2026年5月10日
0000
Linux文件系统iostat命令使用技巧

iostat是Linux系统中用于监控I/O设备负载的关键工具，能分析磁盘性能并识别瓶颈。默认输出包括CPU使用率和设备I/O统计，分为系统启动以来的平均值和当前采样周期数据。核心指标有：%util反映设备利用率，持续接近100%可能表示I/O瓶颈；await为平均I/O等待时间，过高说明响应变慢；…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

C++怎么使用C++17的并行算法库_C++ std::execution与多核性能优化

c++kquote>C++17通过std::execution策略引入并行算法支持，需编译器（如GCC 8+）和线程库（如TBB）配合；提供seq、par、par_unseq三种策略控制执行模式；可用于sort、for_each等算法提升大数据性能，但需避免数据竞争，推荐使用reduce等安全…

程序猿
2026年5月10日
0000
用户投稿

学习了Python的Flask后，Go语言的Web框架该选Gin还是Beego？

学习编程时，选择合适的框架至关重要。许多开发者在掌握Python Flask后，转向Go语言Web开发时，常常在Gin和Beego之间难以抉择。本文将深入分析，助您做出明智选择。虽然网上搜索结果多建议使用Go原生标准库http，但实际上所有框架都是对http的封装。虽然使用http开发灵活，但工作…

程序猿
2026年5月10日
0000
从视频链接中提取视频时长的前端实现教程

本文详细介绍了如何在%ignore_a_1%通过javascript从html “ 元素中提取视频时长。核心方法是利用视频元素的 `loadeddata` 事件，确保视频元数据加载完成后，再访问其 `duration` 属性。教程将提供完整的html和javascript代码示例，并讨论相关注意事…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

JavaScript动态下拉菜单：实现日期选项与价格计算关联

在现代web应用中，动态生成表单元素并使其具备交互逻辑是常见的需求。特别是在需要根据用户选择调整价格或服务参数的场景下，下拉菜单（）常被用来展示一系列选项。本教程将指导您如何利用javascript动态生成一个包含日期选项的下拉菜单，并为每个选项关联一个具体的数值（如剩余天数），进而实现一个基于用户…

程序猿
2026年5月10日
0000
用户投稿

如何在不暴露密钥的情况下，在客户端创建 Stripe Payment Link

本文介绍了在纯静态网站环境下，如何利用 Stripe Payment Link 实现商品售卖，并着重讨论了在不暴露 Stripe 密钥的前提下，客户端创建 Payment Link 的可行性。分析了直接在客户端使用密钥的风险，并提出了预先生成 Payment Link 或使用后端服务动态生成 Pay…

程序猿
2026年5月10日
0000
用户投稿

解决Go语言中GOPATH未设置错误及工作区配置指南

本文旨在解决go语言开发中常见的“gopath not set”错误，并提供详细的go工作区配置指南。内容涵盖`gopath`环境变量的设置、go项目目录结构、`path`变量的扩展，以及一些高级配置技巧，旨在帮助开发者建立一个高效、规范的go开发环境，确保包的下载、编译和运行顺利进行。 Go语言在…

程序猿
2026年5月10日
0000
用户投稿

掌握 JavaScript 中的高阶函数

现代 javascript 开发严重依赖函数式编程，掌握其基本思想将极大提高你的编码能力。高阶函数是这个范式最有力的武器之一。为了帮助您掌握它们，本文将介绍它们的定义、应用程序和独特的实现。 1. 函数式编程函数式编程是一种编程范式，强调：纯函数：没有副作用的函数，对于相同的输入返回相同的输出…

程序猿
2026年5月10日
0000