peech_第2页_创想鸟

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

背景介绍为了应对处理各类复杂音视频通信场景，如多设备、多人、多噪音场景，流媒体通信技术渐渐成为人们生活中不可或缺的技术。为达到更好的主观体验，使用户听得清、听得真，流媒体音频技术方案融合了传统机器学习和基于ai的语音增强方案，利用深度神经网络技术方案，在语音降噪、回声消除、干扰人声消除和音频编解码…

程序猿

2025年12月1日 • 用户投稿

3000

微软推出 zh-CN-YunjieNeural 等 4 款 TTS，专为 AI 聊天设计

it之家 9 月 22 日消息，微软表示伴随着生成式 %ignore_a_1% 风靡全球，在用户和 ai 聊天过程中，也对文本转语音的自然性和表现力提出了更高的要求。微软今天宣布推出 en-US-AndrewNeural、en-US-BrianNeural、en-US-EmmaNerual 和 z…

程序猿

2025年12月1日 • 用户投稿

0000

openKylin 操作系统官宣接入大模型，提供语音助手、桌面插件

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 9 月 21 日消息，openkylin 操作系统今日傍晚官宣接入大模型，从智能输入、智能输出两方面入手，尝试探索桌面操作系统未来智能交互的发展方向。据介绍，这个系统可以连接到大型模型，包括语…

程序猿

2025年12月1日 • 用户投稿

1000

微软推出Personal Voice：让用户用自己的声音打造个人AI音频

it之家 11 月 16 日消息，微软 ignite 2023 大会已经拉开帷幕，微软 azure %ignore_a_1% 服务部门在本次活动中推出 personal voice 功能，可以使用自己的声音来创建 ai 音频。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 D…

程序猿

2025年12月1日 • 用户投稿

0000

GoogleAI视频生文怎么识别不同说话人_GoogleAI视频生文说话人识别设置

启用说话人分离功能可解决Google AI视频转文本中无法区分说话人的问题，通过设置enableSpeakerDiarization参数并结合视觉信息与自适应模型提升识别精度。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 如果您在使用Go…

程序猿

2025年11月29日 • 用户投稿

1000

GoogleAI视频生文怎么进行批量处理_GoogleAI视频生文批量处理操作方法

一、使用Google Cloud Video Intelligence API批量转录视频，通过创建项目、启用API、上传视频至Cloud Storage、调用annotateVideo接口设置语音识别参数，执行批量请求并导出文字结果；二、结合Google Speech-to-Text API提升精…

程序猿

2025年11月29日 • 用户投稿

1000

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

大型语言模型（LLM）正在改变每个行业的用户期望。然而，建立以人类语音为中心的生成式人工智能产品仍然很困难，因为音频文件对大型语言模型构成了挑战。将 LLM 应用于音频文件的一个关键挑战是，LLM 受其上下文窗口的限制。在一个音频文件能够被送入 LLM 之前，它需要被转换成文本。音频文件越长，绕过…

程序猿

2025年11月28日 • 用户投稿

0000

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

又一个接入大模型能力的组会神器实用工具，开启免费公测啦！背后大模型，是阿里的通义千问。至于为什么说是组会神器嘛—— 注意看，这是我的B站导师李沐老师，他正在带同学们精读一篇大模型论文。不巧就在这时，老板催我抓紧搬砖。我只好默默摘下耳机，点开名为“通义听悟”的插件，然后切换页面。 ☞☞☞AI 智能…

程序猿

2025年11月28日 • 用户投稿

2000

LLM将成历史？开源bGPT或颠覆深度学习范式：直接模拟二进制，开启模拟数字世界新纪元！

微软亚洲研究院推出的最新成果bGPT，这种基于字节的Transformer模型，为我们探索数字世界开辟了新的大门。与传统基于词表的语言模型不同，bGPT具有独特之处，即其能够直接处理原始二进制数据，不受特定格式或任务的限制。其旨在全面模拟数字世界，为模型的发展打开了新的可能性。 ☞☞☞AI 智能聊…

程序猿

2025年11月27日 • 用户投稿

0000