Pika放大招:今天起,视频和音效可以“一锅出”了!

就在刚刚,Pika发布了一项新功能:

很抱歉我们之前一直处于静音状态。

今天起,大家可以给视频无缝生成音效了——Sound Effects

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Pika放大招:今天起,视频和音效可以“一锅出”了!

生成的方式有两种:

要么给一句Prompt,描述你想要的声音;要么直接让Pika根据视频内容自动生成。

并且Pika非常自信地说到:“如果你觉得音效听起来很棒,那是因为它确实如此”。

车鸣声、广播声、鹰叫声、刀剑声、欢呼声……可谓是声声不息,并且从效果上来看,也是高度与视频画面匹配。

不仅是发布的宣传片,Pika官网现在也放出了多个demo。

例如无需任何prompt,AI只是看了眼烤培根的视频,便可以配出毫无违和感的音效。

再如给一句prompt:

Super saturated color, fireworks over a field at sunset.
超饱和色彩,日落时田野上的烟火。

Pika便可以在生成视频的同时配上声音,从效果中不难看出,烟花绽放的瞬间,声音卡点也是相当的精准。

大周末的发布这样一个新功能,网友们在高呼Pika“够卷、够Awesome”的同时,也有人认为:

它正在为多模态AI创作收集所有的“无限宝石”。

Pika放大招:今天起,视频和音效可以“一锅出”了!

那么Pika的Sound Effects具体要如何操作,我们继续往下看。

给视频“make some noise”

Pika给视频生成音效的操作也是极!其!简!单!

例如只需一句prompt,视频和音效就能“一锅出”

Mdieval trumpet player.
中世纪小号手。

Pika放大招:今天起,视频和音效可以“一锅出”了!

相比于此前生成视频的操作,现在只需开启下方“Sound effects”按钮即可。

第二种操作方式,就是在生成了视频过后,可以单独给它配音。

例如在下面这个视频,点击下方的“Edit”,再选择“Sound Effects”

Pika放大招:今天起,视频和音效可以“一锅出”了!

然后可以描述一下自己想要的声音,例如:

Race car revving its engine.
赛车正在发动引擎。

然后短短几秒后,Pika就可以根据描述和视频生成音效,而且还是6种声音可选的那种!

值得一提的是,Sound Effects功能目前只对超级合作者(Super Collaborator)和Pro用户开放测试。

不过Pika也表示:“我们很快就会向所有用户推出该功能!”

Pika放大招:今天起,视频和音效可以“一锅出”了!

然后现在已经有一批网友在开始测试这个Beta版本了,并且表示:

音效听起来和视频很相配,而且增加了很多气氛。

什么原理?

至于Sound Effects背后的原理,虽然Pika此次并没有公开,但在此前Sora大火之后,语音初创公司ElevenLabs就出过类似的配音功能。

当时,英伟达高级科学家Jim Fan就对此做过较为深入的分析。

他认为,AI学习准确的视频到音频映射还需要对潜在空间中的一些“隐式”物理进行建模。

Pika放大招:今天起,视频和音效可以“一锅出”了!

他详细说明了端到端Transformer在模拟声波时需要解决的问题:

识别每个物体的类别、材料和空间位置。识别物体间的高阶互动:例如,是木棍、金属或是鼓面?以什么速度击打?识别环境:是餐厅、空间站、还是黄石公园?从模型的内部记忆中检索物体和环境的典型声音模式。使用“软性”的、通过学习得到的物理规则来组合和调整声音模式的参数,甚至即时创造全新的声音。这有点像游戏引擎中的“程序化音频”。如果场景很复杂,模型需要根据物体的空间位置叠加多个声音轨道。

所有这些都不是显式的模块,而是通过大量的(视频,音频)对的梯度下降学习来实现的,这些视频和音频对在大多数互联网视频中自然地时间对齐。注意力层将在它们的权重中实现这些算法,以满足扩散目标。

除此之外,Jim Fan当时表示英伟达的相关工作并没有这样高质量的AI音频引擎,不过他推荐了一篇MIT五年前的论文The Sound of Pixels

Pika放大招:今天起,视频和音效可以“一锅出”了!

感兴趣的小伙伴可以戳文末链接详细了解一下。

One More Thing

多模态这件事上,LeCun在最新访谈中的观点也很火爆,他认为:

语言(文本)是低宽带的:小于12字节/秒。现代LLM通常使用1×10^13个双字节标记(即 2×10^13 字节)进行训练。一个人阅读大约需要 100000 年(每天 12 小时)。

视觉的带宽要高得多:约20MB/s。两条视神经中的每一条都有 100 万根神经纤维,每根神经纤维每秒携带约10个字节。一个4岁的孩子在清醒状态下大约是16000小时,换算成字节大约是1×10^15。

视觉感知的数据带宽大约是文本语言数据带宽的1600万倍。

一个4岁孩子看到的数据,是互联网上公开的所有文本训练的最大LLM数据的50倍。

Pika放大招:今天起,视频和音效可以“一锅出”了!

因此,LeCun总结到:

如果不让机器从高带宽的感官输入(如视觉)中学习,我们绝对不可能达到人类水平的人工智能

那么,你赞成这种观点吗?

以上就是Pika放大招:今天起,视频和音效可以“一锅出”了!的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/619689.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Java开发者进阶:是选择项目管理还是架构方向?
上一篇 2025年11月11日 05:57:57
将iPhone移近一点,iPhone上的FaceID问题:修复
下一篇 2025年11月11日 05:58:01

相关推荐

  • 人工智能如何为 C 语言代码提供安全增强功能?

    人工智能通过提供以下功能来提升 c 代码安全性:静态分析:识别潜在安全漏洞(例如缓冲区溢出);动态分析:监控代码执行并检测异常行为;模糊测试:生成随机输入以测试代码的异常行为;自动化修复:建议修复措施或自动生成补丁程序。 人工智能赋能 C 代码:提升安全性 人工智能 (AI) 在 C 代码安全方面发…

    2026年5月10日
    100
  • ChromaDB向量嵌入的有效持久化策略

    本文详细介绍了如何利用langchain中chromadb的`persist_directory`功能,高效地持久化存储向量嵌入。通过将生成的嵌入数据保存到本地磁盘,可以有效避免重复计算,显著提升工作流程效率。教程将涵盖持久化chromadb实例的创建与后续加载的完整过程。 在处理大规模文本数据并生…

    2026年5月10日
    000
  • DeAgentAI(AIA)币是什么?值得投资吗?DeAgentAI上线指南、价格预测及路线图介绍

    目录 DeAgentAI (AIA) 上市:关键细节和交易时间表关键上市信息DeAgentAI(AIA)价格预测:上市后DeAgentAI (AIA) 是什么:解释DeAgentAI (AIA) 为何脱颖而出?DeAgentAI (AIA) 生态系统:其运作方式认识 DeAgentAI (AIA) …

    2026年5月10日
    000
  • 使用C++构建机器学习模型:初学者入门指南

    使用 c++++ 构建机器学习模型的初学者指南。首先安装编译器和线性代数库,创建数据集,建立线性回归模型,优化模型权重以训练模型,然后使用模型预测目标值。实战案例演示了使用房屋面积和价格数据集预测房屋价格。 使用 C++ 构建机器学习模型:初学者入门指南 简介 利用机器学习构建强大的预测模型对于解决…

    2026年5月10日
    000
  • C++ 框架如何支持人工智能模型的持续改进和维护?

    C++ 框架助力持续改进和维护 AI 模型 简介 训练和部署 AI 模型是一项持续的过程,需要不断改进和维护。C++ 框架提供了强大的工具和特性,以支持这些活动。 持续改进 立即学习“C++免费学习笔记(深入)”; 数据收集和特 征工 程 C++ 框架如 TensorFlow 和 PyTorch 提…

    2026年5月10日
    000
  • C++框架在人工智能领域的应用

    c++++ 框架在 ai 领域应用广泛,提供速度、效率和灵活性的优势。流行的 ai c++ 框架包括 tensorflow、pytorch、caffe2、mxnet 和 theano。这些框架用于开发图像分类、自然语言处理和机器学习等应用程序。 C++ 框架在人工智能领域的应用 C++ 以其速度、效…

    2026年5月10日
    000
  • 人工智能助力 C 代码集成和 DevOps实践

    通过将人工智能 (ai) 集成到 c 代码集成和 devops 实践中,可以提高效率和质量:代码审查: ai 工具可以分析代码并识别潜在问题,评估质量指标,例如可读性、可维护性和安全风险。(实战案例:codescene)测试自动化: ai 算法可以生成测试用例并执行测试,提高测试覆盖率。(实战案例:…

    2026年5月10日
    000
  • Holoworld AI(HOLO)是什么币?怎么买?未来能涨到多少

    Holoworld AI(HOLO)是AI驱动虚拟社交平台的原生代币,用于生态内功能与激励。用户可通过中心化平台(如用USDT交易)或去中心化平台获取HOLO,需注意合约地址准确性与网络手续费。其市场表现受项目团队、技术进展、代币经济模型、市场环境及社区活跃度等多重因素影响,且所有数字资产交易均伴随…

    2026年5月10日
    200
  • 如何运用人工智能提升 C 代码可维护性?

    如何运用人工智能提升 C 代码可维护性 在 C 编程中,可维护性是至关重要的,它可以确保代码易于理解、修改和调试。人工智能 (AI) 可以成为提升 C 代码可维护性的强大工具。 1. 代码生成和重构 AI 可以用于生成新的代码或重构现有代码,使其更易于维护。例如,代码生成器可以根据指定规范自动生成代…

    2026年5月10日
    000
  • 使用C++实现机器学习算法:常见挑战及解决方案

    c++++ 中机器学习算法面临的常见挑战包括内存管理、多线程、性能优化和可维护性。解决方案包括使用智能指针、现代线程库、simd 指令和第三方库,并遵循代码风格指南和使用自动化工具。实践案例展示了如何利用 eigen 库实现线性回归算法,有效地管理内存和使用高性能矩阵操作。 C++ 机器学习算法:常…

    2026年5月10日
    000
  • Solana基金会主席 Lily 上海演讲:万物皆可代币化

    在 2025 年 10 月 23 日至 27 日举行的第 11 届全球区块链峰会期间,Solana 基金会主席 Lily Liu 在上海区块链国际周上发表了主题演讲,阐述了“万物皆可代币化”的愿景,并分享了 Solana 在全球金融基础设施建设方面的战略布局。 Solana 的愿景:万物皆可代币化 …

    2026年5月10日
    000
  • html搜索框如何跳转_实现HTML搜索框跳转搜索结果【结果】

    HTML搜索框跳转失败多因表单action或参数错误,可通过五种方法解决:一、百度用form提交至https://www.baidu.com/s?q=关键词;二、Google类似,action为https://www.google.com/search;三、JavaScript拼接必应URL并loc…

    2025年12月23日
    400
  • 从OpenAI API JSON响应中高效提取生成文本内容

    本教程详细指导开发者如何从openai api返回的json格式响应中准确提取生成的文本。通过利用`json.parse()`方法解析响应字符串,并访问`choices[0].text`属性,可以安全、高效地获取核心文本内容,从而避免直接字符串操作的潜在问题,确保api数据处理的健壮性。 OpenA…

    2025年12月23日
    500
  • HTML语义化未来趋势有哪些_HTML语义化在Web发展中的趋势与展望

    HTML语义化正朝着智能、高效、包容发展,深度融合结构化数据与ARIA属性,提升机器理解;2. 组件化趋势推动可复用语义结构普及,Web Components实现自定义语义标签;3. 语义化助力性能优化与可访问性,支持懒加载与内容优先级划分;4. AI工具将自动生成语义化代码并辅助检测,降低实践门槛…

    2025年12月23日
    300
  • HTML数据如何用于机器学习 HTML数据预处理的特征工程方法

    首先解析HTML提取文本与元信息,再从结构、文本、样式三方面构建特征:1. 用BeautifulSoup等工具解析HTML,提取标题、正文、链接及属性;2. 统计标签频率、DOM深度、路径模式等结构特征;3. 清洗文本并采用TF-IDF或词嵌入向量化;4. 提取class、id、样式、脚本等交互与视…

    2025年12月23日
    000
  • HTML数据如何实现数据智能 HTML数据智能分析的技术架构

    实现HTML数据智能分析需构建包含采集、解析、存储、分析与可视化的闭环系统,首先通过爬虫技术获取网页数据并进行清洗标准化,接着利用DOM树分析与NLP技术提取结构化信息,随后将数据存入合适数据库或数据仓库并建立元数据管理机制,进而应用AI模型开展分类、情感分析、趋势预测与知识图谱构建等智能分析,最终…

    2025年12月23日
    100
  • HTML5 section怎么用_HTML5内容分区标签应用场景说明

    在HTML5中,标签用于定义文档中具有明确主题的独立内容区块,需包含标题以体现其结构性与语义性,常用于文章章节、产品模块等场景,区别于无语义的和可独立分发的。 在HTML5中,section 标签用于定义文档中的一个独立内容区块。它不是简单的容器,而是有语义的结构化标签,表示文档中一个主题性的分区,…

    2025年12月23日
    000
  • htm算法 前景如何_分析HTM算法应用前景

    HTM算法在实时异常检测、预测性维护等时序数据场景中具备应用价值,其无需大量标注数据的特性适合工业监控、网络安防等领域;但受限于生态薄弱、性能不及主流模型及工程实现难度,短期内难以成为主流,更可能作为边缘计算或AI系统补充技术,在特定专业领域持续发展。 HTM(Hierarchical Tempor…

    2025年12月23日
    000
  • HTML结构化数据怎么添加_Schema标记添加教程

    Schema标记通过结构化数据帮助搜索引擎理解网页内容,提升搜索结果展示效果,如添加星级评分、价格等富文本信息。使用JSON-LD或Microdata格式将符合Schema.org标准的类型(如Article、Product)嵌入HTML中,可增强SEO,需通过Google Rich Results…

    2025年12月22日
    000
  • 如何实现自定义提示

    掌握自定义提示需构建迭代工作流,通过明确目标、设定角色、提供上下文、结构化输出、示例引导、迭代优化、负面提示和链式思考,实现AI输出的精准控制与高效协同。 实现自定义提示,核心在于理解与AI模型交互的本质,并将其从“提问”升级为“引导”。它不是简单的抛出问题,而是通过精心设计的语言结构、上下文信息、…

    2025年12月22日
    900

发表回复

登录后才能评论
关注微信