Rokid算法负责人王文兵：AR下的“声”临“奇”境

程序猿 • 2025年11月10日 04:02:08 • 用户投稿 • 阅读 0

声音在我们的日常生活中无处不在，是不可或缺的一部分，在元宇宙世界中亦如此。元宇宙的场景要想实现全方位的沉浸感，需要各种声音技术的不断升级和发展。在51CTO近日举办的“AISummit 全球人工智能技术大会”上，Rokid算法负责人王文兵发表了《AR下的“声”临“奇”境》主题演讲，介绍了Rokid自研6DoF空间声场的概念、主要技术模块、技术难点、与AR结合的发展趋势以及开发技术的初衷，诠释了空间声场技术在元宇宙世界中的重要体现。

现将演讲内容整理如下：

什么是6dof空间声场？

谈及这个问题时，可以先抛开技术的限制，想象一下AR上的声音应该以何种形态去呈现。其实我们现在用的TV、手机等大部分都是像stereo这种的双声道，家庭影院已经用上了multi-channel，电影院等专业场景还有空间布局上的喇叭。

在AR上它究竟应该如何去呈现呢？我们可以试想一个画面，比如现在很流行的在线会议或在线教育，如果在元宇宙世界里看到右边的数字人一直在说话，但这个声音从你的左边出来，这个时候是不是感觉很奇怪？

另外我们可以想象一下AR游戏，在以前这种2D的视觉里，声音跟着视觉的焦点去移动就可以，但是在3D场景的360度的范围下，人的双眼是无法抓住整个视觉焦点的，而声音是具备全局焦点的。这也是为什么在很多游戏里，人会跟着声音去切换视角。因此可以看到AR上声音所需具备的一些特性：需要满足人对声音的高灵敏度感觉、声音的全局性焦点作用、以及声音的真实感要求等。

接下来从三个维度介绍一下声音形态的发展之路。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

第一，空间表达维度。整个声音的表达维度从mono/stereo到5.1/7.1/9.1/…这种平面下的多声道、再到5.1.x/7.1.x这种空间下的多声道等，喇叭越来越多，摆放位置也从平面上升到空间了；

第二，编码方式维度。从最开始的channel-based（也就是基于通道的编码，每个通道上会有各种各样的声音，比如我们平时常见的左右声道的表达方式），到object-based（也就是针对发生的对象进行编码），包括大家在电影院观看到的Dolby Atmos片源，比如当某个炮弹打下来的时候，那个炮弹的对象是专门编码的，metadata中记录了其运动的轨迹，然后根据对应的喇叭位置进行播放的；但我们最终的目标还是希望达到完全基于场景下的效果，类似于HOA这样的全景声方式，不只是炮弹，一花一草一树叶的掉落我们都希望它是具备空间感。

第三，XR体验维度。以前虚拟的声音和真实世界是割裂的，如今在XR里，尤其是AR方面，我们一直在做的事就是虚拟与现实的融合。

人之所以能够对声音有如此细力度的区分，是因为双耳模式，专业上来说是ITD和ILD，也就是双耳的时间差和音强差。这两种差别会帮助我们快速定位物体发声的方位。

那么如何让3D声音普及？如何突破场地局限性？如何降低用户消费成本？如何能够让每个人都享受科技？Rokid 自研的6dof空间声场将助力解决这些难题。

6dof空间声场从名字上可以分为两部分：6dof和空间声场。6dof主要表达六自由度，由陀螺仪提供绕XYZ三个方向的旋转，由加速度计提供XYZ三个方向的加速度。

6dof空间声场涉及声音的产生、传播、渲染、编解码以及整个过程中虚实声音融合和交互的过程。

6dof空间声场的主要技术

6dof空间声场的主要技术模块包含HRTFs、声场渲染以及音效。HRTFs是声源从自由场到耳膜的冲击函数，其是在模拟一个消音室的环境下，全方位的声音传到人耳的过程。声场渲染可以给予人听声辨位的能力，可以虚实融合，完美处理真实物体对虚拟声源的影响。音效是在私密性设计的开放式喇叭以减弱声音泄露、保障音量的同时，进行声音品质的丰富。

架构图最上面的SDK，对外提供了空间模块，即空间引擎出口以及语音引擎出口。可以对空间信息进行获取和建模，有助于数字世界和物理世界的融合。

人声去除

用强大的AI算法将声音从音乐中分离出来

23 查看详情

此外，我们在Room Effect上也做了一些修改。其整体框架与经典的网络结构大同小异，首先是构建网络，然后生成理论下的无损的网络，之后在这个理论的基础上做各种衰减、损耗的相关设置，包括吸收、遮挡、反射等。其实我们本身的目的不是为了做各种音效，我们只是结合着产品的使用场景，比如影院或者音乐，提供音效以让用户达到良好的视听体验，这些都可以在下一代AR眼镜Rokid Max上体验到。

6dof空间声场对比。左边是一个第三方SDK的效果，当从0度到90度旋转时，每个频率的变化是不平滑的，而且最开始下降的很厉害，后面的变化非常小。右边的Rokid所做的6dof空间声场，不同的频率段跟着你的方位变换的时候有明显的变化，图中为不同角度、不同频率段、不同幅值的表现。

6dof空间声场的发展趋势

随着元宇宙时代的来临，AR、VR技术的兴起，空间声场的发展也迎来了新的机遇。

空间声场的发展趋势主要体现在三个方面：

一是沉浸感，人们可以根据真实的世界进行反馈，更好地进行虚实融合与交互，真正实现沉浸式体验。所有虚拟世界中的声音不应该放飞自我，不受真实世界中任何物体的影响，因为这样会让人觉得它本身还是割裂的。除了融合还要进行交互，比如在虚拟世界中可以通过语音、手势等不同方式去和AR终端上增强的声音进行交互，去选择暂停、播放、或切换不同层次、不同视角的窗口、或自己感兴趣的声音等等。

二是精细化，在HRTF、分辨率、测试方法、定制化等不同方面进行精细化的探索与实践。精细化比较难的是头传，因为头传本身的生成手段就比较费时费力，需要对整个球面空间上不同距离下的每个点进行播放，然后再耳道进行采样。当前也有些学者在研究如何用更少的采样点生成这种相同的精细化程度，以及如何通过插值或其他技术手段实现更高的精确度；同时，从更长远的角度来看，精细化的一个极限是私定制的实现。

三是私密性与音效，体验不同频段的声音带来的听觉盛宴。不同谐波或不同频段给我们带来的感觉是不一样的。比如，严重的混响是会影响人类的听感，而适宜的混响是会带来音质上的丰富听感；尤其是早期的混响，很多时候会被用于音色的判断，低于3K的混响和横向反射会有助于形成更好的空间感和深度感，而高频的分量会帮助我们实现环绕感。

探索空间声场的初衷

Rokid为何会做空间声场？主要有三个方面的原因：

一，沉浸感。我们一直在追求数字世界与物理世界的融合，比如玩游戏时的那种生动、在线会议或在线教育时的那种真实。

二，虚实交互。我们认为未来在这世界会是一种虚实的融合，在融合的基础上可以去做很多交互，包括空间感知的过程、主观行为的交互等。空间感知是指对于世界中比如物体的大小、空间的大小、材质等方面，这种感知之后则形成对虚拟声音的影响；主观行为的交互是人为地干预、选择、与数字世界中的声音做沟通。

三，极致品质。AR Glass与手机、平板、TV等产品是有所区别的。当你用手机时出现断网或者卡顿的情况是能够忍受的，但是对戴在眼睛上的AR Glass的实时性的要求却是非常高的。如何才能做到这种实时性的高要求？这涉及到算法、工程、系统、硬件以及应用等整体的优化。

这些是我们一直所追求的使命，Rokid希望通过AR Glass产品将这些能力直接推广并普及到大众；与此同时也希望将这些技术作为我们Yoda OS里的基本能力释放，从而通过广大开发者们的使用，间接的惠及到用户，赋能到各行各业。

现大会演讲回放及PPT已上线，进入官网查看精彩内容（https://www.php.cn/link/53253027fef2ab5162a602f2acfed431）

以上就是Rokid算法负责人王文兵：AR下的“声”临“奇”境的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/566979.html

ar type 人工智能

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Windows之外的新选择曝SteamOS将完成PC适配

上一篇 2025年11月10日 04:02:08

高德地图怎么避开高速公路_高德地图路线避开高速设置方法

下一篇 2025年11月10日 04:02:09

好文分享

html搜索框如何跳转_实现HTML搜索框跳转搜索结果【结果】

HTML搜索框跳转失败多因表单action或参数错误，可通过五种方法解决：一、百度用form提交至https://www.baidu.com/s?q=关键词；二、Google类似，action为https://www.google.com/search；三、JavaScript拼接必应URL并loc…

程序猿
2025年12月23日
2000
好文分享

从OpenAI API JSON响应中高效提取生成文本内容

本教程详细指导开发者如何从openai api返回的json格式响应中准确提取生成的文本。通过利用`json.parse()`方法解析响应字符串，并访问`choices[0].text`属性，可以安全、高效地获取核心文本内容，从而避免直接字符串操作的潜在问题，确保api数据处理的健壮性。 OpenA…

程序猿
2025年12月23日
1000
好文分享

HTML语义化未来趋势有哪些_HTML语义化在Web发展中的趋势与展望

HTML语义化正朝着智能、高效、包容发展，深度融合结构化数据与ARIA属性，提升机器理解；2. 组件化趋势推动可复用语义结构普及，Web Components实现自定义语义标签；3. 语义化助力性能优化与可访问性，支持懒加载与内容优先级划分；4. AI工具将自动生成语义化代码并辅助检测，降低实践门槛…

程序猿
2025年12月23日
0000
好文分享

如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

使用HTML构建标签结构，CSS3添加旋转与过渡效果，JavaScript生成随机HSL颜色并设置字体大小，实现动态交互的标签云组件。要在网页中实现一个动态的标签云组件，结合 HTML、CSS3 变换和随机颜色生成算法，可以按照以下步骤操作。这个组件不仅能提升页面视觉效果，还能通过色彩和旋转增加交…

程序猿
2025年12月23日
0000
好文分享

如何在Go Gin应用中集成前端JavaScript模块（如Sentry）

本文探讨了在Go Gin框架下，通过HTML模板服务前端页面时，如何有效集成JavaScript模块（如Sentry）。针对浏览器不直接支持Node.js模块导入语法的问题，文章详细阐述了利用CDN引入Sentry SDK的解决方案，并提供了具体的代码示例，帮助开发者实现前端错误监控功能，避免了复杂…

程序猿
2025年12月23日
0000
好文分享

HTML数据如何实现数据智能 HTML数据智能分析的技术架构

实现HTML数据智能分析需构建包含采集、解析、存储、分析与可视化的闭环系统，首先通过爬虫技术获取网页数据并进行清洗标准化，接着利用DOM树分析与NLP技术提取结构化信息，随后将数据存入合适数据库或数据仓库并建立元数据管理机制，进而应用AI模型开展分类、情感分析、趋势预测与知识图谱构建等智能分析，最终…

程序猿
2025年12月23日
0000
好文分享

html官网浏览入口_html网站设计免费平台

html官网浏览入口在https://www.codepen.io，该平台支持实时预览代码、创建Pen项目、Fork开源示例，可添加外部资源，具备点赞评论收藏等社区互动功能，设有挑战活动与作品集分类，开放API接口，界面简洁适合初学者，在线编写无需配置环境，支持多种预处理器和响应式测试。 html官…

程序猿
2025年12月23日
0000
好文分享

HTML5 section怎么用_HTML5内容分区标签应用场景说明

在HTML5中，标签用于定义文档中具有明确主题的独立内容区块，需包含标题以体现其结构性与语义性，常用于文章章节、产品模块等场景，区别于无语义的和可独立分发的。在HTML5中，section 标签用于定义文档中的一个独立内容区块。它不是简单的容器，而是有语义的结构化标签，表示文档中一个主题性的分区，…

程序猿
2025年12月23日
0000
好文分享

htm算法前景如何_分析HTM算法应用前景

HTM算法在实时异常检测、预测性维护等时序数据场景中具备应用价值，其无需大量标注数据的特性适合工业监控、网络安防等领域；但受限于生态薄弱、性能不及主流模型及工程实现难度，短期内难以成为主流，更可能作为边缘计算或AI系统补充技术，在特定专业领域持续发展。 HTM（Hierarchical Tempor…

程序猿
2025年12月23日
0000
好文分享

HTML结构化数据怎么添加_Schema标记添加教程

Schema标记通过结构化数据帮助搜索引擎理解网页内容，提升搜索结果展示效果，如添加星级评分、价格等富文本信息。使用JSON-LD或Microdata格式将符合Schema.org标准的类型（如Article、Product）嵌入HTML中，可增强SEO，需通过Google Rich Results…

程序猿
2025年12月22日
0000
好文分享

如何实现自定义提示

掌握自定义提示需构建迭代工作流，通过明确目标、设定角色、提供上下文、结构化输出、示例引导、迭代优化、负面提示和链式思考，实现AI输出的精准控制与高效协同。实现自定义提示，核心在于理解与AI模型交互的本质，并将其从“提问”升级为“引导”。它不是简单的抛出问题，而是通过精心设计的语言结构、上下文信息、…

程序猿
2025年12月22日
0000
好文分享

html如何修改日期样式

在html中，可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式，只需要用该选择器选中元素，在设置具体样式即可，具体语法为“::-webkit-datetime-edit{属性:属性值}”。本教程操作环境：windows7系统、CSS3&&HTML…

程序猿
2025年12月21日
1000
好文分享

单选框的type属性值为什么

单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型；值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。本教程操作环境：windows7系统、HTML5版、Dell G3电脑。在HTML中，…

程序猿
2025年12月21日
0000
好文分享

HTML中type是什么意思

在HTML中，type是类型的意思，是一个标签属性，主要用于定义标签元素的类型或文档（脚本）的MIME类型；例在input标签中type属性可以规定input元素的类型，在script标签中type属性可以规定脚本的MIME类型。本教程操作环境：windows7系统、html5版、Dell G3电…

程序猿
2025年12月21日
0000
HTML中ul标签如何去掉点？HTML无序列表的样式实例解析

本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉，还有关于html的无序列表ul标签的样式解释，给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的：大家应该都使用过ul无序列表标签，ul…

程序猿
2025年12月21日 • 好文分享
1000
html中的ol标签如何去掉标号呢？标签的使用方法总结

本篇文章介绍了html的ol标签是怎么去掉序号标号的，这里还有代码的详细解释，还有介绍了关于html ol有序列表标签如何更改序号，下文介绍了三种序号，大家也可以自己去想填写怎样的序号。现在来看这篇文章吧一、我们先看看html中的ol标签是如何去掉标号的呢：我们都知道html的ol标签是个有序列…

程序猿
2025年12月21日 • 好文分享
0000
好文分享

HTML ul标签的什么意思？HTML ul标签的作用详解

本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法，还有关于html ul标签的解释，包含li标签的还有type属性对ul标签的使用情况，好了，下面大家一起来看文章吧首先让我们先来解释一下HTML ul标签的意思： ul标签定义的是表格当中无序列表，表格当中的无序列表都是在标签之中…

程序猿
2025年12月21日
0000
好文分享

javascript框架和库是什么_如何选择React、Vue或Angular？

JavaScript框架与库分别提供按需调用的功能集合和约束性开发结构；React是UI组件库，生态灵活但需自行整合工具；Vue渐进式易上手，兼顾原型与工程化；Angular是全功能TypeScript框架，适合强规范企业级项目。 JavaScript框架和库是封装好的代码集合，用来简化前端开发——…

程序猿
2025年12月21日
0000
好文分享

React应用生产环境环境变量配置深度指南

本文针对react应用在生产环境中无法读取`.env`文件配置的环境变量问题，深入剖析其工作原理、常见原因及排查方法。通过详细的步骤和示例代码，指导开发者正确配置和使用环境变量，解决api调用层面的`null`响应问题，确保应用在生产环境下的稳定运行。在React应用开发中，环境变量（如API密钥…

程序猿
2025年12月21日
0000
好文分享

JS注解怎么实现文档化_ JS注解生成开发文档的流程与工具

JSDoc是一种JavaScript结构化注释规范，通过@param、@returns等标签描述代码元素，并借助工具生成HTML文档，结合IDE支持和CI/CD可提升团队协作效率。 JavaScript本身不支持原生注解（Annotation）像Java那样的语法，但通过约定的注释格式和配套工具，可…

程序猿
2025年12月21日
0000