Rokid算法负责人王文兵:AR下的“声”临“奇”境

声音在我们的日常生活中无处不在,是不可或缺的一部分,在元宇宙世界中亦如此。元宇宙的场景要想实现全方位的沉浸感,需要各种声音技术的不断升级和发展。在51CTO近日举办的“​​AISummit 全球人工智能技术大会​”上,Rokid算法负责人王文兵发表了《AR下的“声”临“奇”境》主题演讲,介绍了Rokid自研6DoF空间声场的概念、主要技术模块、技术难点、与AR结合的发展趋势以及开发技术的初衷,诠释了空间声场技术在元宇宙世界中的重要体现。

现将演讲内容整理如下: 

什么是6dof空间声场?

谈及这个问题时,可以先抛开技术的限制,想象一下AR上的声音应该以何种形态去呈现。其实我们现在用的TV、手机等大部分都是像stereo这种的双声道,家庭影院已经用上了multi-channel,电影院等专业场景还有空间布局上的喇叭。 

在AR上它究竟应该如何去呈现呢?我们可以试想一个画面,比如现在很流行的在线会议或在线教育,如果在元宇宙世界里看到右边的数字人一直在说话,但这个声音从你的左边出来,这个时候是不是感觉很奇怪? 

另外我们可以想象一下AR游戏,在以前这种2D的视觉里,声音跟着视觉的焦点去移动就可以,但是在3D场景的360度的范围下,人的双眼是无法抓住整个视觉焦点的,而声音是具备全局焦点的。这也是为什么在很多游戏里,人会跟着声音去切换视角。因此可以看到AR上声音所需具备的一些特性:需要满足人对声音的高灵敏度感觉、声音的全局性焦点作用、以及声音的真实感要求等。 

接下来从三个维度介绍一下声音形态的发展之路。 

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Rokid算法负责人王文兵:AR下的“声”临“奇”境

第一,空间表达维度。整个声音的表达维度从mono/stereo到5.1/7.1/9.1/…这种平面下的多声道、再到5.1.x/7.1.x这种空间下的多声道等,喇叭越来越多,摆放位置也从平面上升到空间了;

第二,编码方式维度。从最开始的channel-based(也就是基于通道的编码,每个通道上会有各种各样的声音,比如我们平时常见的左右声道的表达方式),到object-based(也就是针对发生的对象进行编码),包括大家在电影院观看到的Dolby Atmos片源,比如当某个炮弹打下来的时候,那个炮弹的对象是专门编码的,metadata中记录了其运动的轨迹,然后根据对应的喇叭位置进行播放的;但我们最终的目标还是希望达到完全基于场景下的效果,类似于HOA这样的全景声方式,不只是炮弹,一花一草一树叶的掉落我们都希望它是具备空间感。  

第三,XR体验维度。以前虚拟的声音和真实世界是割裂的,如今在XR里,尤其是AR方面,我们一直在做的事就是虚拟与现实的融合。

人之所以能够对声音有如此细力度的区分,是因为双耳模式,专业上来说是ITD和ILD,也就是双耳的时间差和音强差。这两种差别会帮助我们快速定位物体发声的方位。 

那么如何让3D声音普及?如何突破场地局限性?如何降低用户消费成本?如何能够让每个人都享受科技?Rokid 自研的6dof空间声场将助力解决这些难题。 

6dof空间声场从名字上可以分为两部分:6dof和空间声场。6dof主要表达六自由度,由陀螺仪提供绕XYZ三个方向的旋转,由加速度计提供XYZ三个方向的加速度。

6dof空间声场涉及声音的产生、传播、渲染、编解码以及整个过程中虚实声音融合和交互的过程。

Rokid算法负责人王文兵:AR下的“声”临“奇”境 

6dof空间声场的主要技术 

6dof空间声场的主要技术模块包含HRTFs、声场渲染以及音效。HRTFs是声源从自由场到耳膜的冲击函数,其是在模拟一个消音室的环境下,全方位的声音传到人耳的过程。声场渲染可以给予人听声辨位的能力,可以虚实融合,完美处理真实物体对虚拟声源的影响。音效是在私密性设计的开放式喇叭以减弱声音泄露、保障音量的同时,进行声音品质的丰富。

Rokid算法负责人王文兵:AR下的“声”临“奇”境  

架构图最上面的SDK,对外提供了空间模块,即空间引擎出口以及语音引擎出口。可以对空间信息进行获取和建模,有助于数字世界和物理世界的融合。

人声去除 人声去除

用强大的AI算法将声音从音乐中分离出来

人声去除 23 查看详情 人声去除

此外,我们在Room Effect上也做了一些修改。其整体框架与经典的网络结构大同小异,首先是构建网络,然后生成理论下的无损的网络,之后在这个理论的基础上做各种衰减、损耗的相关设置,包括吸收、遮挡、反射等。其实我们本身的目的不是为了做各种音效,我们只是结合着产品的使用场景,比如影院或者音乐,提供音效以让用户达到良好的视听体验,这些都可以在下一代AR眼镜Rokid Max上体验到。

6dof空间声场对比。左边是一个第三方SDK的效果,当从0度到90度旋转时,每个频率的变化是不平滑的,而且最开始下降的很厉害,后面的变化非常小。右边的Rokid所做的6dof空间声场,不同的频率段跟着你的方位变换的时候有明显的变化,图中为不同角度、不同频率段、不同幅值的表现。

  Rokid算法负责人王文兵:AR下的“声”临“奇”境   

6dof空间声场的发展趋势   

随着元宇宙时代的来临,AR、VR技术的兴起,空间声场的发展也迎来了新的机遇。

空间声场的发展趋势主要体现在三个方面: 

一是沉浸感,人们可以根据真实的世界进行反馈,更好地进行虚实融合与交互,真正实现沉浸式体验。所有虚拟世界中的声音不应该放飞自我,不受真实世界中任何物体的影响,因为这样会让人觉得它本身还是割裂的。除了融合还要进行交互,比如在虚拟世界中可以通过语音、手势等不同方式去和AR终端上增强的声音进行交互,去选择暂停、播放、或切换不同层次、不同视角的窗口、或自己感兴趣的声音等等。 

二是精细化,在HRTF、分辨率、测试方法、定制化等不同方面进行精细化的探索与实践。精细化比较难的是头传,因为头传本身的生成手段就比较费时费力,需要对整个球面空间上不同距离下的每个点进行播放,然后再耳道进行采样。当前也有些学者在研究如何用更少的采样点生成这种相同的精细化程度,以及如何通过插值或其他技术手段实现更高的精确度;同时,从更长远的角度来看,精细化的一个极限是私定制的实现。 

三是私密性与音效,体验不同频段的声音带来的听觉盛宴。不同谐波或不同频段给我们带来的感觉是不一样的。比如,严重的混响是会影响人类的听感,而适宜的混响是会带来音质上的丰富听感;尤其是早期的混响,很多时候会被用于音色的判断,低于3K的混响和横向反射会有助于形成更好的空间感和深度感,而高频的分量会帮助我们实现环绕感。

Rokid算法负责人王文兵:AR下的“声”临“奇”境  

探索空间声场的初衷

Rokid为何会做空间声场?主要有三个方面的原因:

一,沉浸感。我们一直在追求数字世界与物理世界的融合,比如玩游戏时的那种生动、在线会议或在线教育时的那种真实。 

二,虚实交互。我们认为未来在这世界会是一种虚实的融合,在融合的基础上可以去做很多交互,包括空间感知的过程、主观行为的交互等。空间感知是指对于世界中比如物体的大小、空间的大小、材质等方面,这种感知之后则形成对虚拟声音的影响;主观行为的交互是人为地干预、选择、与数字世界中的声音做沟通。

三,极致品质。AR Glass与手机、平板、TV等产品是有所区别的。当你用手机时出现断网或者卡顿的情况是能够忍受的,但是对戴在眼睛上的AR Glass的实时性的要求却是非常高的。如何才能做到这种实时性的高要求?这涉及到算法、工程、系统、硬件以及应用等整体的优化。 

这些是我们一直所追求的使命,Rokid希望通过AR Glass产品将这些能力直接推广并普及到大众;与此同时也希望将这些技术作为我们Yoda OS里的基本能力释放,从而通过广大开发者们的使用,间接的惠及到用户,赋能到各行各业。

现大会演讲回放及PPT已上线,进入官网查看精彩内容(​https://www.php.cn/link/53253027fef2ab5162a602f2acfed431​)

以上就是Rokid算法负责人王文兵:AR下的“声”临“奇”境的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/566979.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Windows之外的新选择 曝SteamOS将完成PC适配
上一篇 2025年11月10日 04:02:08
高德地图怎么避开高速公路_高德地图路线避开高速设置方法
下一篇 2025年11月10日 04:02:09

相关推荐

  • 人工智能如何为 C 语言代码提供安全增强功能?

    人工智能通过提供以下功能来提升 c 代码安全性:静态分析:识别潜在安全漏洞(例如缓冲区溢出);动态分析:监控代码执行并检测异常行为;模糊测试:生成随机输入以测试代码的异常行为;自动化修复:建议修复措施或自动生成补丁程序。 人工智能赋能 C 代码:提升安全性 人工智能 (AI) 在 C 代码安全方面发…

    2026年5月10日
    100
  • ChromaDB向量嵌入的有效持久化策略

    本文详细介绍了如何利用langchain中chromadb的`persist_directory`功能,高效地持久化存储向量嵌入。通过将生成的嵌入数据保存到本地磁盘,可以有效避免重复计算,显著提升工作流程效率。教程将涵盖持久化chromadb实例的创建与后续加载的完整过程。 在处理大规模文本数据并生…

    2026年5月10日
    000
  • DeAgentAI(AIA)币是什么?值得投资吗?DeAgentAI上线指南、价格预测及路线图介绍

    目录 DeAgentAI (AIA) 上市:关键细节和交易时间表关键上市信息DeAgentAI(AIA)价格预测:上市后DeAgentAI (AIA) 是什么:解释DeAgentAI (AIA) 为何脱颖而出?DeAgentAI (AIA) 生态系统:其运作方式认识 DeAgentAI (AIA) …

    2026年5月10日
    000
  • typescript用来干嘛_typescript的作用

    TypeScript 是一种用于构建大型复杂应用程序的开源编程语言,它扩展了 JavaScript 的功能,具有以下作用:类型系统:编译时检查类型错误,提高代码可靠性。面向对象编程特性:支持类、接口、抽象类,增强代码组织性和维护性。模块系统:分解程序为可重用模块,提升可维护性和可扩展性。全面的类型推…

    2026年5月10日
    000
  • C++ 框架如何支持人工智能模型的持续改进和维护?

    C++ 框架助力持续改进和维护 AI 模型 简介 训练和部署 AI 模型是一项持续的过程,需要不断改进和维护。C++ 框架提供了强大的工具和特性,以支持这些活动。 持续改进 立即学习“C++免费学习笔记(深入)”; 数据收集和特 征工 程 C++ 框架如 TensorFlow 和 PyTorch 提…

    2026年5月10日
    000
  • C++框架在人工智能领域的应用

    c++++ 框架在 ai 领域应用广泛,提供速度、效率和灵活性的优势。流行的 ai c++ 框架包括 tensorflow、pytorch、caffe2、mxnet 和 theano。这些框架用于开发图像分类、自然语言处理和机器学习等应用程序。 C++ 框架在人工智能领域的应用 C++ 以其速度、效…

    2026年5月10日
    000
  • 人工智能助力 C 代码集成和 DevOps实践

    通过将人工智能 (ai) 集成到 c 代码集成和 devops 实践中,可以提高效率和质量:代码审查: ai 工具可以分析代码并识别潜在问题,评估质量指标,例如可读性、可维护性和安全风险。(实战案例:codescene)测试自动化: ai 算法可以生成测试用例并执行测试,提高测试覆盖率。(实战案例:…

    2026年5月10日
    000
  • Holoworld AI(HOLO)是什么币?怎么买?未来能涨到多少

    Holoworld AI(HOLO)是AI驱动虚拟社交平台的原生代币,用于生态内功能与激励。用户可通过中心化平台(如用USDT交易)或去中心化平台获取HOLO,需注意合约地址准确性与网络手续费。其市场表现受项目团队、技术进展、代币经济模型、市场环境及社区活跃度等多重因素影响,且所有数字资产交易均伴随…

    2026年5月10日
    200
  • 如何运用人工智能提升 C 代码可维护性?

    如何运用人工智能提升 C 代码可维护性 在 C 编程中,可维护性是至关重要的,它可以确保代码易于理解、修改和调试。人工智能 (AI) 可以成为提升 C 代码可维护性的强大工具。 1. 代码生成和重构 AI 可以用于生成新的代码或重构现有代码,使其更易于维护。例如,代码生成器可以根据指定规范自动生成代…

    2026年5月10日
    000
  • Solana基金会主席 Lily 上海演讲:万物皆可代币化

    在 2025 年 10 月 23 日至 27 日举行的第 11 届全球区块链峰会期间,Solana 基金会主席 Lily Liu 在上海区块链国际周上发表了主题演讲,阐述了“万物皆可代币化”的愿景,并分享了 Solana 在全球金融基础设施建设方面的战略布局。 Solana 的愿景:万物皆可代币化 …

    2026年5月10日
    000
  • html搜索框如何跳转_实现HTML搜索框跳转搜索结果【结果】

    HTML搜索框跳转失败多因表单action或参数错误,可通过五种方法解决:一、百度用form提交至https://www.baidu.com/s?q=关键词;二、Google类似,action为https://www.google.com/search;三、JavaScript拼接必应URL并loc…

    2025年12月23日
    400
  • 从OpenAI API JSON响应中高效提取生成文本内容

    本教程详细指导开发者如何从openai api返回的json格式响应中准确提取生成的文本。通过利用`json.parse()`方法解析响应字符串,并访问`choices[0].text`属性,可以安全、高效地获取核心文本内容,从而避免直接字符串操作的潜在问题,确保api数据处理的健壮性。 OpenA…

    2025年12月23日
    500
  • HTML语义化未来趋势有哪些_HTML语义化在Web发展中的趋势与展望

    HTML语义化正朝着智能、高效、包容发展,深度融合结构化数据与ARIA属性,提升机器理解;2. 组件化趋势推动可复用语义结构普及,Web Components实现自定义语义标签;3. 语义化助力性能优化与可访问性,支持懒加载与内容优先级划分;4. AI工具将自动生成语义化代码并辅助检测,降低实践门槛…

    2025年12月23日
    300
  • 如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

    使用HTML构建标签结构,CSS3添加旋转与过渡效果,JavaScript生成随机HSL颜色并设置字体大小,实现动态交互的标签云组件。 要在网页中实现一个动态的标签云组件,结合 HTML、CSS3 变换和随机颜色生成算法,可以按照以下步骤操作。这个组件不仅能提升页面视觉效果,还能通过色彩和旋转增加交…

    2025年12月23日
    000
  • 如何在Go Gin应用中集成前端JavaScript模块(如Sentry)

    本文探讨了在Go Gin框架下,通过HTML模板服务前端页面时,如何有效集成JavaScript模块(如Sentry)。针对浏览器不直接支持Node.js模块导入语法的问题,文章详细阐述了利用CDN引入Sentry SDK的解决方案,并提供了具体的代码示例,帮助开发者实现前端错误监控功能,避免了复杂…

    2025年12月23日
    100
  • HTML数据如何实现数据智能 HTML数据智能分析的技术架构

    实现HTML数据智能分析需构建包含采集、解析、存储、分析与可视化的闭环系统,首先通过爬虫技术获取网页数据并进行清洗标准化,接着利用DOM树分析与NLP技术提取结构化信息,随后将数据存入合适数据库或数据仓库并建立元数据管理机制,进而应用AI模型开展分类、情感分析、趋势预测与知识图谱构建等智能分析,最终…

    2025年12月23日
    100
  • html官网浏览入口_html网站设计免费平台

    html官网浏览入口在https://www.codepen.io,该平台支持实时预览代码、创建Pen项目、Fork开源示例,可添加外部资源,具备点赞评论收藏等社区互动功能,设有挑战活动与作品集分类,开放API接口,界面简洁适合初学者,在线编写无需配置环境,支持多种预处理器和响应式测试。 html官…

    2025年12月23日
    000
  • HTML5 section怎么用_HTML5内容分区标签应用场景说明

    在HTML5中,标签用于定义文档中具有明确主题的独立内容区块,需包含标题以体现其结构性与语义性,常用于文章章节、产品模块等场景,区别于无语义的和可独立分发的。 在HTML5中,section 标签用于定义文档中的一个独立内容区块。它不是简单的容器,而是有语义的结构化标签,表示文档中一个主题性的分区,…

    2025年12月23日
    000
  • htm算法 前景如何_分析HTM算法应用前景

    HTM算法在实时异常检测、预测性维护等时序数据场景中具备应用价值,其无需大量标注数据的特性适合工业监控、网络安防等领域;但受限于生态薄弱、性能不及主流模型及工程实现难度,短期内难以成为主流,更可能作为边缘计算或AI系统补充技术,在特定专业领域持续发展。 HTM(Hierarchical Tempor…

    2025年12月23日
    000
  • HTML结构化数据怎么添加_Schema标记添加教程

    Schema标记通过结构化数据帮助搜索引擎理解网页内容,提升搜索结果展示效果,如添加星级评分、价格等富文本信息。使用JSON-LD或Microdata格式将符合Schema.org标准的类型(如Article、Product)嵌入HTML中,可增强SEO,需通过Google Rich Results…

    2025年12月22日
    000

发表回复

登录后才能评论
关注微信