能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

大型语言模型(LLM)正在改变每个行业的用户期望。然而,建立以人类语音为中心的生成式人工智能产品仍然很困难,因为音频文件对大型语言模型构成了挑战。

将 LLM 应用于音频文件的一个关键挑战是,LLM 受其上下文窗口的限制。在一个音频文件能够被送入 LLM 之前,它需要被转换成文本。音频文件越长,绕过 LLM 的上下文窗口限制的工程挑战就越大。但工作场景中,我们往往需要 LLM 帮我们处理非常长的语音文件,比如从一段几个小时的会议录音中抽取核心内容、从一段访谈中找到某个问题的答案……

最近,语音识别 AI 公司 AssemblyAI 推出了一个名为 LeMUR 的新模型。就像 ChatGPT 处理几十页的 PDF 文本一样,LeMUR 可以将长达 10 小时的录音进行转录、处理,然后帮用户总结语音中的核心内容,并回答用户输入的问题。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

试用地址:https://www.assemblyai.com/playground/v2/source

LeMUR 是 Leveraging Large Language Models to Understand Recognized Speech(利用大型语言模型来理解识别的语音)的缩写,是将强大的 LLM 应用于转录的语音的新框架。只需一行代码(通过 AssemblyAI 的 Python SDK),LeMUR 就能快速处理长达 10 小时的音频内容的转录,有效地将其转化为约 15 万个 token。相比之下,现成的、普通的 LLM 只能在其上下文窗口的限制范围内容纳最多 8K 或约 45 分钟的转录音频。

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

为了降低将 LLM 应用于转录音频文件的复杂性,LeMUR 的 pipeline 主要包含智能分割、一个快速矢量数据库和若干推理步骤(如思维链提示和自我评估),如下图所示:

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

图 1:LeMUR 的架构使用户能够通过一个 API 调用将长的和 / 或多个音频转录文件发送到 LLM 中。

Kits AI Kits AI

Kits.ai 是一个为音乐家提供一站式AI音乐创作解决方案的网站,提供AI语音生成和免费AI语音训练

Kits AI 492 查看详情 Kits AI

未来,LeMUR 有望在客服等领域得到广泛应用。

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

LeMUR 解锁了一些惊人的新可能性,在几年前,我认为这些都是不可能的。它能够毫不费力地提取有价值的见解,如确定最佳行动,辨别销售、预约或呼叫目的等呼叫结果,感觉真的很神奇。—— 电话跟踪和分析服务技术公司 CallRail 首席产品官 Ryan Johnson

LeMUR 解锁了什么可能性?

将 LLM 应用于多个音频文本

LeMUR 能够让用户一次性获得 LLM 对多个音频文件的处理反馈,以及长达 10 小时的语音转录结果,转化后的文本 token 长度可达 150K 。

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

可靠、安全的输出

由于 LeMUR 包含安全措施和内容过滤器,它将为用户提供来自 LLM 的回应,这些回应不太可能产生有害或有偏见的语言。

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

可补充上下文

在推理时,它允许加入额外的上下文信息,LLM 可以利用这些额外信息在生成输出时提供个性化和更准确的结果。

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

模块化、快速集成

LeMUR 始终以可处理的 JSON 形式返回结构化数据。用户可以进一步定制 LeMUR 的输出格式,以确保 LLM 给出的响应是他们下一块业务逻辑所期望的格式(例如将回答转化为布尔值)。在这一流程中,用户不再需要编写特定的代码来处理 LLM 的输出结果。

试用结果

根据 AssemblyAI 提供的测试链接,机器之心对 LeMUR 进行了测试。

LeMUR 的界面支持两种文件输入方式:上传音视频文件或粘贴网页链接均可。

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

我们用 Hinton 近期的一份访谈资料作为输入,测试 LeMUR 的性能。

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

上传之后,系统提示我们要等一段时间,因为它要先把语音转成文字。

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

转录之后的界面如下:

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

在页面右侧,我们可以要求 LeMUR 总结采访内容或回答问题。LeMUR 基本可以轻松地完成任务:

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

如果要处理的语音是一段演讲或客服回复,你还能向 LeMUR 征求改进建议。

能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

不过,LeMUR 似乎目前还不支持中文。感兴趣的读者可以去尝试一下。

以上就是能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/902305.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月28日 21:04:49
下一篇 2025年11月28日 21:05:32

相关推荐

  • 合成达尔文、人工智能系统与效用代币:未来正在进化

    深入了解 synthetic darwin、ai 系统与效用代币的未来图景。探索这一前沿技术如何重塑人工智能及其相关产业的发展格局。 围绕“Synthetic Darwin、AI 系统、效用代币”的话题正日益升温,这并不令人意外。这种融合人工智能与区块链的新颖方法正在酝酿一场变革,彻底改变我们对 A…

    2025年12月8日
    000
  • 加密市场周度赢家:XLM的卓越突破与AI预测

    stellar (xlm) 成为加密货币市场周度赢家!受 paypal 消息和火热市场的推动,xlm 能否突破 0.50 美元?ai 模型给出分析! 加密货币市场周度赢家:XLM 的强势崛起与 AI 预测 近期加密市场波动剧烈,而 XLM(Stellar)却展现出强劲的上涨动能!在过去七天内涨幅高达…

    2025年12月8日
    000
  • AI预测XLM价格飙升:Stellar能否再创新高?

    ai能否精准预判xlm价格走势?全面解析预测模型、市场动态与推动stellar升值的核心动力 AI预测XLM价格上扬:Stellar是否有望再攀高峰? Stellar(XLM)正逐渐成为市场的焦点,人工智能也参与到对其未来潜力的探讨之中。伴随着近期币价上涨及生态系统的持续优化,XLM是否具备进一步上…

    2025年12月8日
    000
  • 佩佩、预售和柴犬币:用小佩佩解读迷因币狂热

    小佩佩(lilpepe)正以迅猛的势头崭露头角,其发展蓝图融合了nft与专注模因币的启动平台。它会成为下一个柴犬币(shiba inu)吗? 佩佩、预售与柴犬币:揭开小佩佩背后的模因币热潮 模因币的世界总是充满戏剧性,不是吗?还记得2021年柴犬币(Shiba Inu)疯狂上涨的那段时期吗?如今,又…

    2025年12月8日
    000
  • ChatGPT、LilPepe与加密货币:乘着模因浪潮走向财富?

    探索 chatgpt 青睐的另类加密货币、lilpepe 等模因币的崛起之路,以及加密领域中潜藏的巨大收益机会。 加密世界的追随者们,准备好迎接风暴了吗!ChatGPT、LilPepe 等模因币与整个加密市场的融合正变得越来越引人注目。让我们一起揭开最新趋势的面纱,看看数字货币世界正在发生哪些变化。…

    2025年12月8日
    000
  • 为何比特币与英伟达市值同创历史新高

    英伟达和比特币市值同创新高,反映了市场对人工智能和数字化价值储存的乐观情绪。1. 英伟达因在AI芯片领域的垄断地位,成为AI革命的核心受益者;2. 比特币受现货ETF获批和减半事件推动,逐步被主流投资市场接纳;3. 两者同步上涨的背后逻辑在于对计算能力的依赖及市场对科技创新的追捧,标志着AI重塑生产…

    2025年12月8日
    000
  • Sogni AI(SOGNI)是什么?怎么样?SOGNI代币经济与未来前景分析

    目录 Sogni AI(SOGNI)是什么?Sogni AI解决什么问题?1. 创意人工智能中心化危机2. 基础设施无障碍障碍3. 创意网络中的经济不平等4. 隐私和所有权问题Sogni AI背后的故事Sogni AI 主要特点和优势1. 双层渲染架构2. 隐私至上的创作环境3. 全面的模型库4. …

    2025年12月8日 好文分享
    000
  • 什么是Yupp项目?Yupp如何运作?Yupp运作原理及路线图介绍

    目录 什么是 Yupp 项目?Yupp 如何运作?Yupp产品和技术人工智能聚合平台AI评分系统——VIBE评分Yupp积分奖励计划安全与隐私系统反馈质量控制工具项目亮点代币和代币经济学概述路线图项目团队和投资者项目团队投资者概括 什么是 Yupp 项目? Yupp 是一个社区 AI 平台,旨在帮助…

    2025年12月8日 好文分享
    000
  • Apple,Openai和Siri的AI大修:纽约的一分钟技术戏剧

    据报道,苹果公司正在与openai和anthropic展开对话,希望借助先进的ai技术对siri进行重大升级。本文将探讨这一潜在变革及其对用户可能带来的影响。 苹果正在加速追赶AI浪潮,而Siri正面临巨大的升级压力。消息称,苹果有意携手Openai与Anthropic,为Siri带来一次深度重塑。…

    2025年12月8日
    000
  • MetaTrust Labs是什么?融资、技术、产品、愿景介绍

    什么是metatrust labs?metatrust labs能给我们带来什么? MetaTrust Labs 是 Web3 安全领域的领先创新者,提供 AI 驱动的安全解决方案。通过 MetaScan、MetaScout 和 MetaScore 等尖端工具,为开发者提供全面的安全保障,包括自动化…

    2025年12月8日 好文分享
    000
  • CHATGPT预测:这些加密货币在Q3 2025中的表现会优越吗?

    chatgpt指出像little pepe、mantle以及其他类似的加密货币可能在2021年复制solana的成功。 加密世界永远不会停歇,随着2025年第三季度的临近,各类代币纷纷迎来爆发。Chatgpt对此有一些见解,并列出了一些可能成为行业变革者的潜力项目。让我们深入了解一下。 索拉纳效应:…

    2025年12月8日
    000
  • XRP Price,Chatgpt和2025 Bull Run:nyc Perspective

    xrp的法律挑战,chatgpt的影响以及2025年牛市的可能性:纽约人的观点 XRP价格、Chatgpt与2025年牛市:纽约视角 嘿,加密货币粉丝们!我们来聊聊XRP目前的情况,Chatgpt可能带来的影响,以及2025年的牛市是否真的在酝酿中。系好安全带,这将是一段充满起伏的旅程。 XRP面临…

    2025年12月8日
    000
  • Altcoin新兴领导者:在不断变化的加密景观中发现最好的购买

    在加密货币领域中寻找最具潜力的山寨币领导者。从互操作性到人工智能,探索哪些项目现在是值得关注的投资机会。 Altcoin新星崛起:探索当前值得投资的优质资产 加密市场持续波动,投资者纷纷寻找下一个爆发点。抛开炒作,真正的价值在于实际应用和坚实的技术基础。让我们聚焦那些正在掀起波澜的山寨币,看看它们为…

    2025年12月8日
    000
  • AI与模因:解码Dogecoin的价格预测

    像chatgpt和grok这样的ai模型能否预测dogecoin的价格?我们深入探讨了模因炒作的预测、市场趋势与影响因素。 AI与模因:解读Dogecoin价格预测 Dogecoin(DOGE)作为从网络模因演变而来的加密货币,始终引发大众关注。那么,AI是否能够预测它的下一步走势呢?我们整理了最新…

    2025年12月8日
    000
  • 加密货币预售2025:寻找下一个10x宝石

    在2025年探索加密货币预售市场,寻找可能带来10倍回报的机会。揭示识别有潜力的ico的关键趋势和洞察。 2025年加密预售:寻找下一个10x宝藏 加密预售市场正变得炙手可热!每个人都希望找到那个具有巨大增长潜力的项目。让我们来看看当前ICO领域中哪些项目正在引起关注。 当前热潮:为何此时兴起? 随…

    2025年12月8日
    000
  • AI的碳足迹:平衡准确性和排放

    探索ai惊人的气候代价:研究准确性、碳排放与可持续人工智能发展的未来权衡 AI的碳足迹:在准确性和碳排放之间寻找平衡 每次你向AI提出一个问题,背后都隐藏着一个环境成本:碳排放。随着AI技术日益融入我们的日常生活,了解其对环境的影响变得尤为重要。让我们一起深入了解AI、碳排放和准确性的关系,探讨其中…

    2025年12月8日
    000
  • SHIB价格,预测,时间表:Shiba Inu会达到“单美梦想”吗?

    探索shiba inu(shib)的激进价格预测:0.01美元与1美元目标的可能性及时间表 Shiba Inu(SHIB)依旧在加密社区中引发热议,许多投资者幻想着其价格有朝一日能突破至0.01美元甚至达到1美元。那么,这些大胆的价格预测是否具备现实基础?我们来看看相关的分析、时间节点以及实现的可能…

    2025年12月8日
    000
  • Jasmycoin的市场上限和价值:解码炒作

    茉莉素(jasmy)是否值得投资?我们来看看它的市值、潜在价值以及专家对其未来前景的分析。 茉莉素(Jasmy)正在引发热议,大家都在问:它真的有价值吗?让我们深入探讨其当前市值与未来可能的价值空间。 Jasmycoin:热潮从何而来? Jasmycoin最近吸引了越来越多的关注,尤其是那些在寻找潜…

    2025年12月8日
    000
  • chatgpt,bonk和$ apork:导航模因硬币狂潮

    通过chatgpt insights探索模因硬币的动态世界,重点是bonk的挑战和$ apork的兴起,作为令人信服的替代方案。在模因硬币市场中发现关键趋势和投资机会。 Meme硬币市场是一个疯狂的旅程,最近在Bonk和The Remering $ apork等硬币周围嗡嗡作响。让我们深入了解正在发…

    2025年12月8日
    000
  • 虚拟价格潜水:Block3是AI游戏救主吗?

    virtuals协议的虚拟代币价格暴跌,引发对ai游戏未来走向的质疑。block3凭借其人工智能驱动的游戏开发平台,是否将成为行业的新希望? 虚拟资产跳水:Block3能否扛起AI游戏大旗? Virtuals协议的虚拟代币正经历剧烈波动,而Block3是否能为AI游戏领域注入新活力?我们来一探究竟。…

    2025年12月8日
    000

发表回复

登录后才能评论
关注微信