达摩院发布一站式AI视频创作平台”寻光”,打造全新AI工作流

今年是 AI 视频生成爆发的元年,以 Sora 为代表的算法模型和产品应用不断涌现。短短几个月内,我们目睹了几十种视频生成工具的问世,基于 AI 的视频创作方式开始流行起来。
但新技术也引发更多的挑战与质疑,除了大家熟知的 “开盲盒” 现象,AI 所生成的视频内容也因可控性差、处理工作流繁琐而频频被诟病。
OpenAI 曾经邀请专业视频制作团队对 Sora 进行了测试,其中来自于多伦多的 Shy Kids 团队,利用 Sora 制作了一个气球人主题的短片,把创意和 AI 技术进行了完美的结合,让人印象深刻。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

达摩院发布一站式ai视频创作平台

整个短片其实并不是 Sora 直接输出的结果,而是由多个视频片段组成,且 Sora 在生成不同视频时,很难保证主角的一致性。因此,在引入了大量的人工后期编辑,他们才呈现出最终的短片效果。Shy Kids 的主创们总结,“Sora 的技术很酷,但是它的生成过程很难控制。”
对生成内容的精准可控,是 AI 视频创作中的重要需求,也是今天算法面临的一大挑战。

达摩院发布一站式AI视频创作平台

为此,在刚结束的上海世界人工智能大会(WAIC)上,达摩院发布了一站式 AI 视频创作平台 “寻光”。
其定位为 PUGC 一站式 AI 视频创作平台,可辅助用户创作剧本、分镜图等,并通过工作流整合提升创作全流程的效率,支持对生成及上传素材进行丰富的 AI 编辑,提供人物控制、场景控制、风格迁移、运镜控制、目标新增 / 消除 / 修改等十多种 AI 编辑功能,让视频中的元素和对象精准可控。
达摩院希望借由寻光平台进一步提升 AI 视频创作的效率,目标是用 AI 能力重塑传统视频制作的整个流程,打造 AI 时代的全新视频工作流。
业界首次落地
基于图层的视频编辑
在寻光研发的初期,达摩院还与影视传媒从业者及创作者进行了广泛且密集调研,了解其对于视频 AIGC 创作的需求与痛点。他们发现,视频图层几乎是所有视频创作者们提到频次最高、最迫切的需求。
基于此,寻光平台首次在行业推出系统性的视频图层编辑功能。用户通过文本输入,即可生成符合文本描述且具有透明背景的视频,并且一键将其融合到其他背景视频当中。在传统视频生成能力的基础上,用图层这样一种更灵活的形式来产生内容。

达摩院发布一站式AI视频创作平台

寻光更提供图层拆解功能,轻轻一圈,选定目标立刻拆解为单独的图层视频,再丝滑嵌入不同的背景视频。

达摩院发布一站式AI视频创作平台

用户可以将不同的前景图层跟不同的背景进行图层融合,组合出更多新的视频。图层融合的能力进一步激发 AI 创作力和想象力,同时能够保持多个分镜头之间的场景和人物的一致性。
达摩院发布一站式AI视频创作平台
在达摩院看来,AI 不会取代创作者的工作,而是会优化视频创作的工作流,成为创意驱动的新引擎。
一站式 AI 创作平台
更简洁的交互,更丰富的编辑能力
剧本创作、分镜设计、素材编辑…… 传统的视频创作步骤分工明晰、周期冗长。在 AI 技术的加持下,原本分散在不同制作流程中的创作步骤,如今都可以在寻光平台上流畅完成。
“我们希望让视频编辑像操作 ppt 一样简洁直观,容易上手。” 达摩院视觉技术实验室高级算法专家陈威华在现场介绍,寻光平台的一大亮点在交互方面。
寻光平台在设计时便充分考虑到 AI 视频创作的特点,将每个视频项目抽象为多个分镜头画面,用户可根据剧本自动生成一组分镜头,也可以自己上传原始视频素材,由算法切分成多个分镜头。
在创作空间里,用户可以很方便的查看每一个分镜头,一个场景内的多个分镜头可以收起或者展开,场景之间可以通过拖拽来调整顺序,场景内的分镜头也可以进行拖拽。用户也可以在任意位置上进行分镜头的添加和新建,可调用图片生成或者视频生成能力去产生内容,也可以添加自己已有的各种素材。

达摩院发布一站式AI视频创作平台

对于每个分镜头,寻光提供完整且智能的 AI 视频编辑能力进行处理,可依据用户意图,在语义层面而不是像素层面实现编辑。分镜头里的人体、人脸、前景、背景等任意局部目标,都可以进行精细化的编辑和修改。
比如,理解空间景深的运镜控制;

达摩院发布一站式AI视频创作平台

爱派AiPy 爱派AiPy

融合LLM与Python生态的开源AI智能体

爱派AiPy 1 查看详情 爱派AiPy

又比如,能够理解物体相对关系的目标消除 / 修改。

达摩院发布一站式AI视频创作平台

在对视频全局元素的编辑上,寻光平台提供了超过 20 种的风格迁移。

达摩院发布一站式AI视频创作平台

寻光也提供帧率控制、视频超分等实用的视频编辑功能。

达摩院发布一站式AI视频创作平台

“我们希望一个视频里的所有元素都是可编辑、可修改的,这样可以给用户的创作提供最大的自由度”,陈威华说。
写在最后
今天,我们正处在 AIGC 的变革浪潮之中,AI 有可能催生出新的视频工作流。无论是专业的影视从业者还是热爱创作的 UGC 用户,都将从中获益。
“工欲善其事,必先利其器”,达摩院希望寻光视频创作平台能够成为每一位创作者的专属视频工作室,实现 AI 与创作者之间更紧密、高效的协作,真正释放 AI 的生产力。
为此,达摩院视觉技术实验室已做了大量技术储备。该实验室致力于多模态视觉信号的理解与生成技术研究,当前的重点研究方向包括更加精准的图像 / 视频 / 3D 内容生成,更加可控的图像 / 视频 / 3D 内容编辑,更加高效的生成框架,多模态的理解 – 生成框架等。
陈威华表示,“寻光”将于近期开放内测,持续迭代,优化交互,欢迎创作者们来定制属于自己的 AI 工作流。
内测申请地址:
https://xunguang.damo-vision.com/

以上就是达摩院发布一站式AI视频创作平台”寻光”,打造全新AI工作流的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/793051.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月26日 15:00:23
下一篇 2025年11月26日 15:00:45

相关推荐

  • html5使用video与canvas实现视频截图 html5使用多媒体融合的技巧

    首先通过结合HTML5的video与canvas元素实现视频截图,具体步骤包括嵌入视频和canvas标签,利用JavaScript将当前视频帧绘制到canvas并导出图像数据;接着通过预加载元数据、调整输出质量、使用离屏canvas及支持摄像头流等优化技巧提升性能;该技术广泛应用于视频会议拍照、在线…

    2025年12月23日
    000
  • track标签的作用?视频字幕怎么添加?

    track标签用于为html5的和元素添加文本轨道,最常见的应用是视频字幕,通过结合webvtt格式的字幕文件实现;2. 使用时需在标签内嵌套标签,设置kind(如subtitles、captions等)、src(指向.vtt文件)、srclang(字幕语言)、label(用户可见名称)和defau…

    2025年12月22日 好文分享
    100
  • HTML5视频怎么添加?video标签支持哪些格式?

    html5视频在某些浏览器无法播放的主要原因是视频格式和编码不兼容。1. 首先需提供多种格式,如mp4(h.264编码)、webm(vp8/vp9编码)和ogg(theora编码),以覆盖不同浏览器的支持范围;2. 确保视频文件内部编码正确,即使文件后缀为.mp4,也必须使用h.264视频和aac音…

    2025年12月22日
    000
  • html文件怎么转换成mp4

    将 HTML 文件转换为 MP4:使用屏幕录像软件录制 HTML 页面。导出视频为 MP4 格式。转换音频为 MP3(可选)。使用视频编辑软件编辑视频(可选)。最终导出为 MP4 格式。 如何将 HTML 文件转换为 MP4 步骤 1:使用屏幕录像软件 使用屏幕录像软件(如 OBS Studio 或…

    好文分享 2025年12月22日
    000
  • WebAssembly与JavaScript_javascript性能提升

    WebAssembly通过二进制格式和接近原生的执行速度提升JavaScript性能。1. 代码体积小、解析快,适合高负载场景;2. 支持C/C++、Rust等语言编译,增强计算能力;3. 与JavaScript互操作,关键路径用Wasm,其余用JS处理。适用于图像视频编辑、游戏引擎、数据处理等场景…

    2025年12月21日
    000
  • JavaScript中的WebAssembly简介与使用_javascript WebAssembly

    WebAssembly是一种可在现代浏览器中运行的低级字节码,设计用于高性能应用,作为JavaScript的补充而非替代。它是一种二进制指令格式,具有紧凑体积和高效执行能力,支持C/C++、Rust等语言编译为.wasm文件,在接近原生速度下运行。主流浏览器均已支持,通过JavaScript加载和实…

    2025年12月21日
    000
  • 什么是 Web Assembly 的 JavaScript Promise 集成,它如何提升异步性能?

    WebAssembly通过与JavaScript集成实现异步优化:将计算密集型任务封装在Promise中运行于Web Worker,利用其接近原生的执行速度和非阻塞设计,提升异步性能;典型应用包括音视频处理、文件加密和游戏引擎,通过合理分工——重计算交Wasm、控制流留JavaScript——显著改…

    2025年12月20日
    000
  • JavaScript中的Web Assembly(WASM)带来了哪些性能突破?

    WASM通过接近原生的执行速度、更小的二进制体积和跨平台能力,显著提升Web性能;它与JavaScript互补,使浏览器能运行AutoCAD、Figma等重型应用,并支持4K视频处理、大模型训练等复杂任务,推动Web向桌面级体验演进。 WebAssembly(WASM)为JavaScript生态带来…

    2025年12月20日
    000
  • 如何用WebCodecs实现浏览器端的视频转码器?

    WebCodecs通过硬件加速实现浏览器端高效视频转码,核心步骤为解析容器、解码、处理、编码和封装,利用VideoDecoder与VideoEncoder API完成帧级操作,结合OffscreenCanvas等技术可实现格式转换与分辨率调整,同时需注意内存管理、兼容性及性能优化,提升实时性与用户体…

    2025年12月20日
    000
  • 如何用WebCodecs实现浏览器端的视频编辑工具?

    WebCodecs通过提供底层音视频编解码接口,使浏览器端实现高性能视频编辑成为可能。它支持帧级操作、硬件加速、与Canvas/WebGL/Web Audio等技术融合,将计算下放到客户端,降低服务器负载。典型流程包括:文件导入后解码为VideoFrame和AudioData,进行剪辑、合成、特效处…

    2025年12月20日
    300
  • WebRTC屏幕录制:精确同步鼠标轨迹与视频帧的策略

    本文旨在解决WebRTC屏幕录制中,如何将鼠标位置与视频帧精确同步的问题。由于API限制,无法直接获取与每帧对应的鼠标事件。教程将详细介绍一种基于时间戳的同步策略,通过requestAnimationFrame周期性记录鼠标坐标及其相对时间戳,实现鼠标轨迹数据与视频流的有效关联,为后续视频编辑提供精…

    2025年12月20日
    000
  • WebRTC屏幕录制中鼠标轨迹与视频帧同步的最佳实践

    本文探讨了在WebRTC屏幕录制过程中,如何精确同步鼠标移动轨迹与视频帧的挑战与解决方案。鉴于无法直接获取视频帧事件,我们提出了一种基于时间戳的同步策略,通过在录制开始时启动计时器,并结合requestAnimationFrame捕获鼠标位置及其相对时间戳,实现鼠标数据与视频流的有效解耦与后端重构,…

    2025年12月20日
    000
  • JS如何处理音频和视频

    JavaScript控制音视频播放与交互的核心方法包括:1. 使用HTML5音视频元素的play()、pause()等方法控制播放;2. 通过currentTime、volume、playbackRate等属性实现播放时间、音量、倍速控制;3. 监听play、pause、ended、error等事件…

    2025年12月20日
    000
  • js怎么实现屏幕录制

    屏幕录制可通过mediarecorder和getdisplaymedia api实现;2. 麦克风权限应先请求屏幕共享,再单独请求音频以避免多次弹窗;3. 优化文件大小可降低分辨率、帧率,选择vp9编码或限制时长;4. 添加水印可用canvas api绘制并捕获流,或录制后用ffmpeg.js处理;…

    2025年12月20日 好文分享
    000
  • JS如何实现Diff算法

    javascript中的diff算法通过比较新旧虚拟dom树,找出最小差异并更新真实dom。1. 只进行同层节点比较,不跨层级对比;2. 节点类型不同时直接替换;3. 类型相同时比较属性,增删或更新不一致的属性;4. 子节点比较中,无key时按顺序对比,有key时通过key识别同一节点,实现复用与移…

    2025年12月20日
    000
  • Canvas的基本用法是什么

    canvas的性能优化策略包括:1. 使用requestanimationframe控制重绘频率,避免不必要的刷新;2. 采用离屏canvas或脏矩形技术,只重绘变化区域;3. 减少像素操作,通过imagedata对象批量处理像素数据;4. 缓存静态内容,避免重复绘制;5. 优先使用高效的api如d…

    2025年12月20日
    000
  • 如何用BOM获取用户的硬件并发数?

    navigator.hardwareconcurrency 属性可获取用户设备的逻辑处理器核心数,用于优化并行计算任务。通过该属性可动态分配web worker数量,提升图片处理、数据排序等复杂任务的性能;但其值仅为参考,受系统负载、隐私策略及浏览器兼容性影响,不能完全依赖。 通过BOM(Brows…

    2025年12月20日 好文分享
    000
  • js如何实现图片镜像翻转 4种镜像处理方式玩转图像变换

    在js中实现图片镜像翻转主要通过canvas和css两种方式,具体步骤如下:1. 使用canvas时,水平翻转需调用ctx.scale(-1, 1)并平移原点至右侧;2. 垂直翻转使用ctx.scale(1, -1)并平移原点至下方;3. 同时水平与垂直翻转则设置ctx.scale(-1, -1)并…

    2025年12月20日 好文分享
    000
  • 如何在 Mac 上退出全屏:分步指南

    高效地浏览 Mac 可以显着提高您的工作效率。 Mac 用户最常见的疑问之一是了解如何退出全屏模式。无论您是在观看电影、处理文档还是探索应用程序,了解如何在全屏和常规视图之间切换都可以让您的 Mac 体验更加流畅。 本指南将引导您了解在 mac 上退出全屏的不同方法,解释全屏模式为何有用,并提供有效…

    2025年12月19日
    000
  • Web 开发的演变:从静态 HTML 到动态 Web 应用程序

    自互联网诞生之初以来,Web 开发已经取得了长足的进步。最初简单的静态 HTML 页面已转变为由现代技术支持的动态、交互式和身临其境的体验。这一旅程不仅反映了技术的进步,还反映了我们与网络交互方式的转变。 静态网页时代网络的早期是由 20 世纪 90 年代引入的静态 HTML 页面定义的。这些页面是…

    2025年12月19日
    000

发表回复

登录后才能评论
关注微信