脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源

脑机接口最新进展登上nature子刊,深度学习三巨头之一的lecun都来转发。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源

这次是用神经信号进行语音合成,帮助因神经系统缺陷导致失语的人群重新获得交流的能力。

据悉,来自纽约大学的研究团队开发了一个新型的可微分语音合成器,可利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(如音高、响度、共振峰频率等),并通过可微分语音合成器重新合成语音。

通过将神经信号映射到这些语音参数,研究者构建了一个高度可解释且可应用于小数据量情形的神经语音解码系统,可生成听起来自然的语音。

48名研究人员共收集了受试者的数据并进行了试验,进行语音解码以评估未来的高准确度的脑机接口提供了验证。

结果表明,该框架能够处理高低不同空间采样密度,并且可以处理左、右半球的脑电信号,显示出了强大的语音解码能力。

脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源

神经信号的语音解码,难!

此前,马斯克的Neuralink公司已经在一位受试者脑内成功植入电极,可以完成简单的光标操作以实现打字等功能。

然而,神经-语音解码通常被认为复杂度更高。

开发神经-语音解码器和其他的高精度脑机接口模型的尝试大多数依赖于一种特殊的数据:皮层电图(ECoG)记录的受试者数据,通常是从癫痫病人的治疗过程中收集。

利用患有癫痫的患者植入的电极,在发音时收集大脑皮层数据,这些数据具有高时空分辨率,已经在语音解码领域帮助研究者获得了一系列很显著的成果。

不过,神经信号的语音解码还面临着两大挑战。

用于训练个性化神经到语音解码模型的数据在时间上是非常有限的,通常只有十分钟左右,而深度学习模型往往需要大量的训练数据来驱动。人类的发音非常多样,哪怕是同一个人重复说出相同的单词,语速、语调和音调等也会有变化,这给模型构建的表征空间增加了复杂性。

早期的解码神经信号到语音的尝试主要依赖于线性模型,模型通常不需要庞大的训练数据集,可解释性强,但是准确率很低。

近期的基于深度神经网络,尤其是利用卷积和循环神经网络架构,在模拟语音的中间潜在表示和合成后语音质量两个关键维度上进行了很多的尝试。例如,有研究将大脑皮层活动解码成口型运动空间,然后再转化为语音,虽然解码性能强大,但重建的声音听起来不自然。

另一方面,一些方法通过利用wavenet声码器、生成对抗网络(GAN)等,虽然成功重建了自然听感的语音,但准确度有限。

最近一项发表在Nature的研究,在一个植入了设备的患者身上,通过使用量化的HuBERT特征作为中间表示空间和预训练的语音合成器将这些特征转换成语音,实现了既准确又自然的语音波形。

然而,HuBERT特征不能表示发音者特有的声学信息,只能生成固定统一的发音者声音,因此需要额外的模型将这种通用声音转换为特定患者的声音。此外,这项研究和大多数先前的尝试采用了非因果(non-causal)架构,这可能限制其在需要时序因果(causal)操作的脑机接口实际应用中的使用。

构建可微分语音合成器

纽约大学Video Lab和Flinker Lab的研究团队介绍了一个新型的从脑电(ECoG)信号到语音的解码框架,构建了一个低维度的中间表示(low dimension latent representation),该表示通过仅使用语音信号的语音编解码模型生成。

脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源

△神经语音解码框架

具体来说,框架由两部分组成:

一部分是ECoG解码器,它能将ECoG信号转化为我们可以理解的声学语音参数(比如音高、是否发声、响度、以及共振峰频率等);

另一部分是语音合成器,它将这些语音参数转化为频谱图。

研究人员构建了一个可微分语音合成器,这使得在训练ECoG解码器的过程中,语音合成器也可以参与训练,共同优化以减少频谱图重建的误差。

这个低维度的潜在空间具有很强的可解释性,加上轻量级的预训练语音编码器生成参考用的语音参数,帮助研究者构建了一个高效的神经语音解码框架,克服了神经语音解码领域数据非常稀缺的问题。

该框架能产生非常接近说话人自己声音的自然语音,并且ECoG解码器部分可以插入不同的深度学习模型架构,也支持因果操作(causal operations)。

研究人员共收集并处理了48名神经外科病人的ECoG数据,使用多种深度学习架构(包括卷积、循环神经网络和Transformer)作为ECoG解码器。

该框架在各种模型上都展现出了高准确度,其中以卷积(ResNet)架构获得的性能最好。本文研究人员提出的框架仅通过因果操作和相对较低的采样率(low-density, 10mm spacing)就能实现高准确度。

他们还展示了能够从大脑的左右半球都进行有效的语音解码,将神经语音解码的应用扩展到了右脑。

脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源

△可微分语音合成器架构

可微分语音合成器(speech synthesizer),使得语音的重合成任务变得非常高效,可以用很小的语音合成高保真的贴合原声的音频。

可微分语音合成器的原理借鉴了人的发生系统原理,将语音分为Voice(用于建模元音)和Unvoice(用于建模辅音)两部分。

小艺 小艺

华为公司推出的AI智能助手

小艺 549 查看详情 小艺

Voice部分可以首先用基频信号产生谐波,由F1-F6的共振峰组成的滤波器滤波得到元音部分的频谱特征。

对于Unvoice部分,研究人员则是将白噪声用相应的滤波器滤波得到对应的频谱,一个可学习的参数可以调控两部分在每个时刻的混合比例,在此之后通过响度信号放大,加入背景噪声来得到最终的语音频谱。

脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源

△语音编码器和ECoG解码器

研究结果

一、具有时序因果性的语音解码结果

首先,研究人员直接比较不同模型架构卷积(ResNet)、循环(LSTM)和Transformer(3D Swin)在语音解码性能上的差异。

值得注意的是,这些模型都可以执行时间上的非因果(non-causal)或因果操作。

解码模型的因果性对大脑-计算机接口(BCI)应用具有重大意义:因果模型仅利用过去和当前的神经信号生成语音,而非因果模型还会使用未来的神经信号,这在实时应用中不可行。

因此,他们专注于比较相同模型在执行非因果和因果操作时的性能。

脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源

结果发现,即使是因果版本的ResNet模型也能与非因果版本媲美,二者之间没有显著差异。同样,因果和非因果版本的Swin模型性能相近,但因果版本的LSTM模型性能显著低于非因果版本。

研究人员展示了几个关键语音参数的平均解码准确率(N=48),包括声音权重(用于区分元音和辅音)、响度、音高f0、第一共振峰f1和第二共振峰f2。准确重建这些语音参数,尤其是音高、声音权重和前两个共振峰,对于实现精确的语音解码和自然地模仿参与者声音的重建至关重要。

结果表明,无论是非因果还是因果模型,都能得到合理的解码结果,这为未来的研究和应用提供了积极的指引。

二、对左右大脑神经信号语音解码以及空间采样率的研究

研究人员进一步对左右大脑半球的语音解码结果进行了比较。多数研究集中关注主导语音和语言功能的左脑半球,而对从右脑半球解码语言信息的关注较少。

针对这一点,他们比较了参与者左右大脑半球的解码表现,以此验证使用右脑半球进行语音恢复的可能性。

在研究收集的48位受试者中,有16位受试者的ECoG信号采集自右脑。

脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源

通过对比 ResNet 和 Swin 解码器的表现,发现右脑半球也能够稳定地进行语音解码,与左脑半球的解码效果相差较小。

这意味着,对于左脑半球受损、失去语言能力的患者来说,利用右脑半球的神经信号恢复语言也许是一个可行的方案。

接着,他们还探讨了电极采样密度对语音解码效果的影响。

之前的研究多采用较高密度的电极网格(0.4 mm),而临床中通常使用的电极网格密度较低(LD 1 cm)。有五位参与者使用了混合类型(HB)的电极网格,这类网格虽然主要是低密度采样,但其中加入了额外的电极。剩余的四十三位参与者都采用低密度采样。这些混合采样(HB)的解码表现与传统的低密度采样(LD)相似。

这表明模型能够从不同空间采样密度的大脑皮层中学习到语音信息,这也暗示临床通常使用的采样密度对于未来的脑机接口应用也许是足够的。

三、对于左右脑不同脑区对语音解码贡献度的研究

研究人员也考察了大脑的语音相关区域在语音解码过程中的贡献程度,这对于未来在左右脑半球植入语音恢复设备提供了重要的参考。

采用了遮挡技术(occlusion analysis)来评估不同大脑区域对语音解码的贡献度。

脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源

通过对比 ResNet 和 Swin 解码器的因果与非因果模型,发现听觉皮层在非因果模型中的贡献更大,这侧面佐证了在实时语音解码应用中,必须使用因果模型,因为在实时语音解码中,我们无法利用神经反馈信号。

此外,无论是在右脑还是左脑半球,传感运动皮层尤其是腹部区域的贡献度相似,这暗示在右半球植入神经假肢也许是一个可行的方案。

最后总结来说,该研究在脑机接口上面取得了一系列的进展,不过研究人员也提到了目前模型的一些限制,比如解码流程需要有与ECoG记录配对的语音训练数据,这对失语患者可能不适用。

未来他们希望开发能处理非网格数据的模型架构,以及更好地利用多病人、多模态脑电数据。

对于脑机接口领域来说,目前的研究还处于相当早期的阶段,伴随着硬件技术的迭代和深度学习技术的快速进展,科幻电影中出现的脑机接口设想会愈发趋近实现。

论文链接:https://www.nature.com/articles/s42256-024-00824-8。
GitHub链接:https://github.com/flinkerlab/neural_speech_decoding。
更多生成的语音例子:https://xc1490.github.io/nsd/。

以上就是脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/798204.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Mac电脑玩《最囧游戏》攻略,教你如何在苹果电脑上运行《最囧游戏》!
上一篇 2025年11月26日 16:44:49
ElasticSearch Windows版-安装教程
下一篇 2025年11月26日 16:44:50

相关推荐

  • 开源免费PHP工具 PHP开发效率提升利器

    推荐开源免费PHP开发工具以提升效率:VS Code、Sublime Text轻量高效,PhpStorm专业强大;调试用Xdebug、Kint、Ray;依赖管理选Composer;代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer;数据库管理可用%ignore_a_1%MyA…

    2026年5月10日
    000
  • 谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧谷歌浏览器如何截图 谷歌浏览器页面截图技巧

    使用谷歌浏览器的开发者工具截图步骤:1. 按ctrl+shift+i(windows/linux)或cmd+option+i(mac)打开开发者工具。2. 点击右上角三个点,选择”更多工具”,再选择”截图”。3. 选择截取整个页面。推荐的谷歌浏览器扩展…

    2026年5月10日 用户投稿
    100
  • JavaScript计算器开发:解决数值显示与初始化问题

    本教程深入探讨了使用JavaScript构建计算器时常见的数值显示异常问题,特别是由于类属性未初始化导致的`Cannot read properties of undefined`错误。我们将详细分析问题根源,并通过在构造函数中调用初始化方法来解决该问题,同时优化显示逻辑,确保计算器功能稳定且界面显…

    2026年5月10日
    000
  • NextAuth getToken 在服务端返回 null 的问题排查与解决

    问题描述 在使用 Next.js 和 NextAuth 构建应用程序时,有时需要在服务端获取用户的身份验证信息。getToken 函数是 NextAuth 提供的一个便捷方法,用于从请求中提取 JWT (JSON Web Token)。然而,在某些情况下,尤其是在使用 getServerSidePr…

    2026年5月10日
    000
  • HTML文档如何工作?如何编辑HTML格式文件?

    HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?

    浏览器解析和渲染html的过程包括:1. 解析html构建dom树;2. 结合css构建渲染树;3. 布局计算元素位置;4. 绘制像素到屏幕。编辑html可使用记事本、vs code、sublime text等文本或代码编辑器,其中vs code因语法高亮、自动补全和插件生态成为主流选择。标准htm…

    2026年5月10日 用户投稿
    000
  • GolangWeb项目异常捕获与日志记录

    答案:通过中间件使用defer和recover捕获panic,结合zap等结构化日志库记录请求链路信息,为每个请求生成trace ID,实现异常捕获与可追踪日志,提升系统稳定性与可观测性。 在Go语言Web项目中,异常捕获与日志记录是保障系统稳定性和可维护性的关键环节。Go本身没有像其他语言那样的t…

    2026年5月10日
    000
  • Python官网用户调查的参与方式_Python官网反馈提交详细教程

    答案是通过访问Python官网新闻页面、邮件邀请链接或GitHub仓库提交反馈。具体为:访问官网查找用户调查公告,或点击邮件中的专属链接参与,在GitHub的cpython仓库提交技术建议,并注意如实填写问卷与保护隐私。 如果您希望参与Python官网的用户调查并提交反馈,可以通过官方指定的渠道完成…

    2026年5月10日
    000
  • Go语言连接外部MySQL数据库:DSN配置与常见错误解析

    本文详细阐述了go语言使用`go-sql-driver/mysql`驱动连接外部mysql数据库的正确方法。重点介绍了数据源名称(dsn)的规范格式,特别是主机地址部分的配置,以避免常见的“getaddrinfow: the specified class was not found.”等网络解析错…

    2026年5月10日
    000
  • Tensorflow 音乐预测

    在本文中,我展示了如何使用张量流来预测音乐风格。在我的示例中,我比较了电子音乐和古典音乐。 你可以在我的github上找到代码:https://github.com/victordalet/sound_to_partition i – 数据集 第一步,您需要创建一个数据集文件夹,并在里面…

    2026年5月10日
    000
  • 人工智能如何为 C 语言代码提供安全增强功能?

    人工智能通过提供以下功能来提升 c 代码安全性:静态分析:识别潜在安全漏洞(例如缓冲区溢出);动态分析:监控代码执行并检测异常行为;模糊测试:生成随机输入以测试代码的异常行为;自动化修复:建议修复措施或自动生成补丁程序。 人工智能赋能 C 代码:提升安全性 人工智能 (AI) 在 C 代码安全方面发…

    2026年5月10日
    100
  • 学习了Python的Flask后,Go语言的Web框架该选Gin还是Beego?

    学习编程时,选择合适的框架至关重要。许多开发者在掌握Python Flask后,转向Go语言Web开发时,常常在Gin和Beego之间难以抉择。本文将深入分析,助您做出明智选择。 虽然网上搜索结果多建议使用Go原生标准库http,但实际上所有框架都是对http的封装。虽然使用http开发灵活,但工作…

    2026年5月10日
    000
  • JavaScript动态下拉菜单:实现日期选项与价格计算关联

    在现代web应用中,动态生成表单元素并使其具备交互逻辑是常见的需求。特别是在需要根据用户选择调整价格或服务参数的场景下,下拉菜单()常被用来展示一系列选项。本教程将指导您如何利用javascript动态生成一个包含日期选项的下拉菜单,并为每个选项关联一个具体的数值(如剩余天数),进而实现一个基于用户…

    2026年5月10日
    000
  • 如何在不暴露密钥的情况下,在客户端创建 Stripe Payment Link

    本文介绍了在纯静态网站环境下,如何利用 Stripe Payment Link 实现商品售卖,并着重讨论了在不暴露 Stripe 密钥的前提下,客户端创建 Payment Link 的可行性。分析了直接在客户端使用密钥的风险,并提出了预先生成 Payment Link 或使用后端服务动态生成 Pay…

    2026年5月10日
    000
  • ChromaDB向量嵌入的有效持久化策略

    本文详细介绍了如何利用langchain中chromadb的`persist_directory`功能,高效地持久化存储向量嵌入。通过将生成的嵌入数据保存到本地磁盘,可以有效避免重复计算,显著提升工作流程效率。教程将涵盖持久化chromadb实例的创建与后续加载的完整过程。 在处理大规模文本数据并生…

    2026年5月10日
    000
  • 解决Go语言中GOPATH未设置错误及工作区配置指南

    本文旨在解决go语言开发中常见的“gopath not set”错误,并提供详细的go工作区配置指南。内容涵盖`gopath`环境变量的设置、go项目目录结构、`path`变量的扩展,以及一些高级配置技巧,旨在帮助开发者建立一个高效、规范的go开发环境,确保包的下载、编译和运行顺利进行。 Go语言在…

    2026年5月10日
    000
  • 掌握 JavaScript 中的高阶函数

    现代 javascript 开发严重依赖函数式编程,掌握其基本思想将极大提高你的编码能力。 高阶函数是这个范式最有力的武器之一。为了帮助您掌握它们,本文将介绍它们的定义、应用程序和独特的实现。 1. 函数式编程 函数式编程是一种编程范式,强调: 纯函数:没有副作用的函数,对于相同的输入返回相同的输出…

    2026年5月10日
    000
  • Golang使用assert库简化测试断言

    使用testify/assert库可提升Go测试代码的可读性和效率,通过go get github.com/stretchr/testify/assert安装后导入包,用assert.Equal等函数替代冗长的手动判断,支持丰富断言方法如Equal、True、Nil、Contains等,并可添加自定…

    2026年5月10日
    100
  • 如何处理在线编辑HTML时外部链接验证的处理方法

    在线编辑HTML时需验证外部链接以保障安全与可用性,可通过自动检测标记外链并添加rel属性提升安全性;2. 实时验证链接有效性,利用HEAD请求检查状态码并在编辑界面提示结果;3. 配置可信域名白名单控制高风险链接输入,适用于合规要求高的场景;4. 提供友好反馈机制,对无效或可疑链接弹出提示并支持新…

    2026年5月10日
    000
  • 怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南

    怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南

    要在c++++项目中使用tensorflow lite micro进行嵌入式ai开发,关键步骤包括:1. 确定mcu平台并安装对应的交叉编译工具链;2. 配置python环境并安装必要的依赖包;3. 获取并裁剪tflm源码,保留核心模块;4. 将tflm静态库集成到c++工程中;5. 按照模型加载、…

    2026年5月10日 用户投稿
    000
  • Golang图片处理技巧 imaging库裁剪缩放

    答案:使用Go语言的imaging库可高效实现图片裁剪与缩放,其API简洁易用,支持多种缩放算法(如Lanczos、CatmullRom)以平衡质量与性能,提供Crop和CropAnchor两种裁剪方式实现精确区域控制,并建议通过算法选择、内存管理、并发处理和错误校验等策略优化性能与稳定性。 在Go…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信