全抖音都在说家乡话,两项关键技术助你“听懂”各地方言

国庆期间,抖音上“一句方言证明你是地道家乡人”的活动在吸引了全国各地的网友热情参与,话题最高登上抖音挑战榜第一位,播放量已超过5000万。

这场“各地方言大赏”能够在网络上迅速走红,离不开抖音新推出的地方方言自动翻译功能的功劳。创作者们在录制家乡话的短视频时,使用了“自动字幕”功能,并选择了“转为普通话字幕”,这样就能够自动识别视频中的方言语音,并将方言内容转化为普通话字幕,让其他地区的网友也能轻松听懂各种“加密型国语”。福建的网友亲自测试后表示,就连“十里不同音”的闽南地区是中国福建省的一个地域,位于福建省东南沿海地区。闽南地区的文化和方言与其他地区有着明显的差异,被认为是福建省的一个重要文化子区。闽南地区的经济以农业、渔业和工业为主,其中农业以种植水稻、茶叶和水果为主要产业。闽南地区的风景名胜众多,包括土楼、古村落和美丽的海滩等。闽南地区的美食也非常有特色,以海鲜、糕点和福建菜为主要代表。总的来说,闽南地区是一个充满魅力和独特文化的地方语也能被准确翻译,大呼“闽南地区是中国福建省的一个地域,位于福建省东南沿海地区。闽南地区的文化和方言与其他地区有着明显的差异,被认为是福建省的一个重要文化子区。闽南地区的经济以农业、渔业和工业为主,其中农业以种植水稻、茶叶和水果为主要产业。闽南地区的风景名胜众多,包括土楼、古村落和美丽的海滩等。闽南地区的美食也非常有特色,以海鲜、糕点和福建菜为主要代表。总的来说,闽南地区是一个充满魅力和独特文化的地方语在抖音上为所欲为的日子一去不复返了”

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

全抖音都在说家乡话,两项关键技术助你“听懂”各地方言

众所周知,语音识别和机器翻译的模型训练需要大量的训练数据,但方言作为口语流传,可用于模型训练的方言语料数据很少,那么,为这项功能提供技术支持的火山引擎技术团队是如何突破的呢?

方言识别阶段

一直以来,火山语音团队都为时下风靡的视频平台提供基于语音识别技术的智能视频字幕解决方案,简单来说就是可以自动将视频中的语音和歌词转化成文字,来辅助视频创作的功能。

在这个过程中,技术团队发现,对于人工标注的有监督数据,传统的有监督学习会产生严重依赖。特别是在大语种的持续优化和小语种的冷启动方面。以中文普通话和英语这样的大语种为例,虽然视频平台提供了丰富的业务场景语音数据,但是一旦有监督数据达到一定规模,继续进行标注的回报将非常低。因此,技术人员必然需要思考如何有效利用百万小时级别的无标注数据,来进一步改善大语种语音识别的效果

相对小众的语言或者方言,由于资源、人力等原因,数据的标注成本高昂。在标注数据极少的情况下(10小时量级),有监督训练的效果非常差,甚至可能无法正常收敛;而采购的数据往往和目标场景不匹配,无法满足业务的需要。

对此,团队采用了以下方案:

低资源方言自监督

基于Wav2vec 2.0自监督学习技术,我们团队提出了Efficient Wav2vec,以实现在极少标注数据条件下的方言ASR能力。为了解决Wav2vec2.0训练速度慢、效果不稳定的问题,我们采取了两个方面的改进措施。首先,我们使用filterbank特征替代waveform,以降低计算量、缩短序列长度,并同时降低帧率,从而实现训练效率翻倍。其次,我们通过等长数据流和自适应连续mask的方法,大幅改善了训练的稳定性和效果

该实验使用了5万小时无标注语音和10小时标注语音,在为了保持原意不变,需要将内容改写为粤语。上进行。结果如下表所示,相比Wav2vec 2.0,Efficient Wav2vec (w2v-e)在100M和300M参数量的模型下,CER相对下降了5%,同时训练开销减半

全抖音都在说家乡话,两项关键技术助你“听懂”各地方言

进一步,团队使用自我监督预训练模型微调得到的CTC模型作为种子模型,对无标注数据进行伪标签打上,然后将其提供给一个参数较少的端到端LAS模型进行训练。这样做既实现了模型结构的迁移,又压缩了推理计算量,可以直接在成熟的端到端推理引擎上部署和上线。这项技术已成功应用于两个低资源方言,仅使用10小时的标注数据就实现了低于20%的字错误率

全抖音都在说家乡话,两项关键技术助你“听懂”各地方言

重写后的内容:对比图表:模型参数量和CER

全抖音都在说家乡话,两项关键技术助你“听懂”各地方言

图说:基于无监督训练ASR的落地流程

方言大规模pretrain+finetune训练模式

在监督数据标注完成后,持续优化ASR模型成为一个重要的研究方向。在过去的一段时间里,半监督或无监督学习一直非常热门。无监督预训练的主要思想是充分利用未标记的数据集来扩充已标记的数据集,从而在处理少量数据时取得较好的识别效果。以下是算法流程:

(1)首先,我们需要利用有监督数据进行人工标注,训练出种子模型。然后,利用该模型对未标注的数据进行伪标签标记

(2)在伪标签生成过程中,由于种子模型对未标记数据的所有预测都不可能都是准确的,因此需要利用一些策略过率训练价值低的数据。

(3)接下来,需要将生成的伪标签与原始的标记数据结合起来,并在合并后的数据上进行联合训练

重写后的内容: (4)由于在训练过程中加入了大量的无监督数据,即使无监督数据的伪标签质量不及有监督数据,但往往能够得到比较通用的表征。我们使用基于大数据训练得到的预训练模型,对人工精标的方言数据进行微调。这样可以保留预训练模型带来的优秀泛化性能,同时提升模型对方言的识别效果

将5个方言的平均CER(字错误率)从需要重新写的内容是:35.3%优化到17.21%。重新写成:将五种方言的平均CER(字错误率)从需要重新写的内容是:35.3%优化到17.21%

平均字错误率需要进行重写

为了保持原意不变,需要将内容改写为粤语。

闽南地区是中国福建省的一个地域,位于福建省东南沿海地区。闽南地区的文化和方言与其他地区有着明显的差异,被认为是福建省的一个重要文化子区。闽南地区的经济以农业、渔业和工业为主,其中农业以种植水稻、茶叶和水果为主要产业。闽南地区的风景名胜众多,包括土楼、古村落和美丽的海滩等。闽南地区的美食也非常有特色,以海鲜、糕点和福建菜为主要代表。总的来说,闽南地区是一个充满魅力和独特文化的地方

重写内容为:北京

中原官话

需要重写的内容是:西南官话

单方言

需要重新写的内容是:35.3

14.05

AI抖音 AI抖音

AI抖音,会思考的抖音

AI抖音 860 查看详情 AI抖音

48.87

41.29

61.56

10.7

需要进行改写的内容是:100wh预训练+方言混合微调

17.21

13.14

需要重写的内容是:22.84

需要重写的是:19.60

19.50

10.95

方言翻译阶段

在通常情况下,机器翻译模型的训练需要大量语料的支持。然而,方言通常以口语形式传播,而现今方言使用者的数量逐年减少。这些现象都增加了方言语料数据收集的难度,从而使方言的机器翻译效果难以提升

为了解决方言语料不足的问题,火山翻译团队提出多语言翻译模型 mRASP (multilingual Random Aligned Substitution Pre-training)和 mRASP2,通过引入对比学习,辅以对齐增强方法,将单语语料和双语语料囊括在统一的训练框架之下,充分利用语料,来学习更好的语言无关表示,由此提升多语言翻译性能。

全抖音都在说家乡话,两项关键技术助你“听懂”各地方言

论文地址:https://arxiv.org/abs/2105.09501

加入对比学习任务的设计是基于一个经典的假设:不同语言中同义句的编码后的表示应当在高维空间的相邻位置。因为不同语言中的同义句对应的句意是相同的,也就是“编码”过程的输出是相同的。比如“早上好”和“Good morning”这两句话对于懂中文和英文的人来说,理解到的意思是一样的,这也就对应了“编码后的表示在高维空间的相邻位置”。

重新设计训练目标

mRASP2在传统的交叉熵损失 (cross entropy loss) 的基础上,加入了对比损失 (contrastive loss) ,以多任务形式进行训练。图中橙色的箭头指示的是传统使用交叉熵损失 (Cross Entropy Loss, CE loss) 训练机器翻译的部分;黑色的部分指示的是对比损失 (Contrastive Loss, CTR loss) 对应的部分。

全抖音都在说家乡话,两项关键技术助你“听懂”各地方言

词对齐数据增强方法又称对齐增强(Aligned Augmentation, AA),是从mRASP的随机对齐变换(Random Aligned Substitution, RAS)方法发展而来的。

全抖音都在说家乡话,两项关键技术助你“听懂”各地方言

重写后的内容如下:根据图示,图(a)展示了对平行语料的增强过程,图(b)展示了对单语语料的增强过程。在图(a)中,原本的英语单词被替换为相应的中文单词;而在图(b)中,原本的中文单词被替换为英语、法语、阿拉伯语和德语。mRASP的RAS等同于第一种替换方式,只需要提供双语同义词词典;而第二种替换方式需要提供包含多种语言的同义词词典。值得一提的是,在使用对齐增强方法时,可以选择只采用图(a)的方法或者只采用图(b)的方法

实验结果表明mRASP2在有监督、无监督、零资源的场景下均取得翻译效果的提升。其中有监督场景平均提升 1.98 BLEU,无监督场景平均提升 14.13 BLEU,零资源场景平均提升 10.26 BLEU。该方法在广泛场景下取得了明显的性能提升,可以大大缓解低资源语种训练数据不足的问题。

写在最后

方言和普通话互相补充,都是中华传统文化的重要表达方式。方言作为一种表达方式,代表着中国人对家乡的情感和纽带。通过短视频和方言翻译,可以帮助广大用户无障碍地欣赏来自全国各地不同区域的文化

当前,抖音「方言翻译」功能现已支持为了保持原意不变,需要将内容改写为粤语。、闽语、吴语(重写内容为:北京)、需要重写的内容是:西南官话(四川)、中原官话(陕西、河南)等,据说未来还将支持更多方言,一起拭目以待吧。

以上就是全抖音都在说家乡话,两项关键技术助你“听懂”各地方言的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/481556.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 11:43:12
下一篇 2025年11月8日 11:44:10

相关推荐

  • CSS 辅助样式属性解析:cursor 和 pointer-events

    CSS 辅助样式属性解析:cursor 和 pointer-events 在网站开发中,经常会遇到一些特殊的需求,需要通过一些辅助样式属性来实现。cursor 和 pointer-events 是两个常用的样式属性,它们可以在用户与页面交互时提供更好的反馈和控制。本文将详细解析这两个属性,并提供具体…

    2025年12月24日
    000
  • 怎么在css中改变光标样式

    在css中cursor属性是用来定义了鼠标指针放在一个元素边界范围内时所用的光标形状;我们可以通cursor属性来设置鼠标光标(指针)样式。 cursor属性的语法: cursor: auto|crosshair|default|hand|move|help|wait|text|w-resize|s…

    好文分享 2025年12月24日
    000
  • cursor属性如何改变光标的形状?(图文详解)

    本篇文章给大家带来的内容是介绍cursor属性改变光标形状的方法,让大家了解cursor属性可以设置的大部分常用的光标形状。有一定的参考价值,有需要的朋友可以参考一下,希望对你们有所帮助。 首先我们来看看cursor属性是如何改变光标形状的。 css3 cursor属性的基本语法: cursor: …

    2025年12月24日 好文分享
    000
  • cursor怎么用?CSS中cursor属性的使用方法以及可选值的解析

    在页面布局时,css是工作中必不可少的部分,常听别人讲:html是一个人素颜的样子,加了css后是一个人化妆以后的样子。这句话通俗易懂,很好的诠释了css与html之间的关系。css中的属性非常多,今天就着重讲一个属性,即css cursor属性,以及它的很多可选值,比如:cursor 手型 就是用…

    好文分享 2025年12月24日
    000
  • css鼠标样式cursor的讲解

    这篇文章主要介绍了关于css鼠标样式cursor的讲解,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 巧合要用到鼠标样式效果,就顺便整理了下十五种CSS 鼠标样式,小例子供大家使用啊 CSS鼠标样式语法如下: 任意标签中插入 style=”cursor:*” …

    好文分享 2025年12月24日
    000
  • DevDocs— 开源的技术文档爬取和处理工具

    devdocs:程序员和ai开发者的效率利器 DevDocs是一款开源的技术文档爬取与处理工具,专为程序员和AI开发者打造。它利用智能爬虫技术,高效地收集和整理技术文档,将原本需要数周才能完成的任务缩短至数小时。DevDocs支持多线程爬取,速度快,并能自动识别和处理网站链接,支持1-5层深度爬取。…

    2025年12月5日
    200
  • DeepSeek支持的GPU型号有哪些?

    DeepSeek 支持多种 GPU 型号和配置,包括 NVIDIA、AMD 和国产显卡。1. NVIDIA GPU:主流架构包括 Ampere(A100、A30)、Hopper(H100、H200)、Ada Lovelace(RTX 4090)和 Blackwell(B200);其他高性能型号包括 …

    2025年12月5日
    000
  • 分析师:盈利速度“前所未见”,AI应用企业正在跃升为巨头

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AI初创企业的迅猛发展 4月14日,金融时报发布文章,指出多家利用大模型开发应用的AI初创企业,正迅速增加销售额,引发了一场将AI技术商业化的竞争。 投资者对Cursor、Perplexity、…

    2025年12月4日
    000
  • CSS中cursor属性pointer和default的使用场景

    在网页设计中,正确使用cursor属性能提升交互体验,常见值pointer用于可点击元素,default用于普通状态。具体来说:1. 当元素可点击时用cursor: pointer,如超链接、按钮、下拉菜单触发区域等;2. 不可点击的元素应使用cursor: default,如纯文本、静态图片、已禁…

    2025年12月2日 web前端
    000
  • Cursor 2.0携自研模型Composer登场,编码速度提升4倍!

    近日,ai编程工具cursor发布了2.0版本,带来两项重大更新:自研编码模型composer和用于并行协作多个智能体的新界面。这标志着cursor从“ai外壳”向“ai原生平台”的进化。此前,cursor只能使用claude、gpt等第三方模型,这虽为其起点,却也成了发展瓶颈。composer的发…

    2025年12月1日
    000
  • AI编码工具Cursor联创离职,72单词声明未透露离职原因

    近日,据外媒消息,ai编码工具cursor背后的公司anysphere联合创始人已离职。cursor最初由四位联合创始人创立,此次离职的是arvid lunnemark,其余三位分别是aman sanger、michael truell和sualeh asif。 Lunnemark在他网站发布的声明…

    2025年12月1日
    000
  • Gemini 3— 谷歌推出的新一代多模态理解与推理AI模型

    Gemini 3是什么 gemini 3 是谷歌最新推出的ai模型,被誉为全球最先进的多模态理解与推理模型。模型具备强大的推理能力,刷新多项基准测试记录,如在 lmarena leaderboard 上以 1501 elo 高分登顶。gemini 3 支持多模态输入,包括文本、图像、视频等,能处理复…

    2025年12月1日 科技
    000
  • Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

    背景介绍 为了应对处理各类复杂音视频通信场景,如多设备、多人、多噪音场景,流媒体通信技术渐渐成为人们生活中不可或缺的技术。为达到更好的主观体验,使用户听得清、听得真,流媒体音频技术方案融合了传统机器学习和基于ai的语音增强方案,利用深度神经网络技术方案,在语音降噪、回声消除、干扰人声消除和音频编解码…

    2025年12月1日 科技
    000
  • 微软发布 Windows 11 RP 22621/22631.2787 预览版更新,新增跨显示器使用 Copilot 等

    本站 11 月 17 日消息,微软今天面向 Release Preview 频道的 Windows Insider 项目成员,发布了适用于 Win11 的 KB5032288 更新,22H2 更新后版本号升至 22621.2787,23H2 更新后版本号升至 22631.2787。 ☞☞☞AI 智能…

    2025年12月1日
    000
  • Context7— 为大模型和AI编辑器提供最新文档和代码示例的平台

    Context7是什么 context7 是 upstash 推出的ai编程辅助工具,为大型语言模型(llms)和 ai 代码编辑器提供最新、版本特定的文档和代码示例。通过解析文档、丰富内容、向量化和重新排名等步骤,确保开发者能获取到准确且最新的代码示例和文档。context7 支持多种工具,如 c…

    2025年11月28日
    000
  • 聚焦谷歌、Meta、OpenAI的聊天机器人大比拼,ChatGPT让LeCun不满成为话题焦点

    ​前几天,Meta首席人工智能科学家Yann LeCun的一段对于ChatGPT的点评迅速传遍圈内外,引发了大波讨论。 在Zoom的媒体和高管小型聚会上,LeCun给出了一段令人惊讶的评价:「就底层技术而言,ChatGPT并不是多么了不得的创新。」 「虽然在公众眼中,它是革命性的,但是我们知道,它就…

    2025年11月27日 科技
    100
  • 专访字节跳动王明轩:机器翻译和人工翻译实质是两个赛道 | T前线

    技术的进步,往往意味着行业的进化发现了新的方向。翻译行业也不例外。随着全球化进程不断加快,人们在进行涉外活动时都离不开跨语言的交流。机器翻译的出现极大地扩充了翻译的应用场景,固然它还远远称不上完善,但却在人类挑战巴别塔的路上跨出了坚实的一步。51CTO特邀字节跳动AI Lab机器翻译负责人王明轩,聊…

    2025年11月27日
    100
  • 利润预测不再困难,scikit-learn线性回归法让你事半功倍

    1、简介 生成式人工智能无疑是一个改变游戏规则的技术,但对于大多数商业问题来说,回归和分类等传统的机器学习模型仍然是首选。 重写后的内容:设想一下私募股权或风险投资等投资者如何利用机器学习。要回答这个问题,首先需要了解投资者关注的数据以及数据的使用方式。投资公司的决策不仅仅基于可量化的数据,例如支出…

    2025年11月26日 科技
    100
  • Cursor 提示词技巧:这三个核心要素,让你的开发效率翻倍!

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 起初使用Cursor时,总遇到AI生成的代码不符合预期的问题。有时描述得很详细,得到的结果却南辕北辙;有时为了传达意图,需要反复调整多次。很多小伙伴可能也有同样的烦恼。 通过深入实践和不断尝试,…

    2025年11月26日
    100
  • OpenAI Codex:云端 AI 编程助手的“返祖”

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ OpenAI再次放大招:推出名为Codex的云端软件工程智能体,由强大的codex-1模型驱动 Codex 是一个集成在 ChatGPT Web 应用中的云端软件工程智能体,旨在通过自动化编程任…

    2025年11月26日
    000

发表回复

登录后才能评论
关注微信