让文物“活”起来，火山引擎视频云三维重建技术揭秘

程序猿 • 2025年11月28日 21:09:54 • 科技 • 阅读 0

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

中国历史悠久，文化底蕴深厚，文物数目众多，文物作为前人智慧的结晶，其文献价值不言而喻。古籍是记录中华文明的重要载体，也是流传至今的宝贵文化遗产，文物保护也是一项长期重要的基础工作。全国2800多家图书馆收藏有超过5000万册的古籍，其中1/3存在不同程度的破损。按现有的文物修复人员数量，需要数百年的时间才能把馆藏文物全部修复好。

《古籍寻游记》是字节跳动联合中国第一历史档案馆、敦煌研究院、甘肃简牍博物馆、国家图书馆（国家典籍博物馆），共同打造的古籍活化项目，还原古文献四大发现 —— 殷墟甲骨、居延汉简、敦煌遗书、明清档案，让古籍以数字化的形式 “活”起来。

该项目以 VR 互动纪录片为核心，依托火山引擎多媒体实验室最新的三维重建技术，复刻线下文物到 PICO 虚拟场景中，并应用自研光场视频技术，采集并惟妙惟肖的还原动态人物的光场信息，在 VR 场景中提供高自由度的观看和交互体验。在这些纪录片中，观众可以通过 PICO、抖音裸眼 VR 等方式，足不出户穿越时空，亲自参与历史事件，零距离接触与欣赏古籍。

本文重点介绍火山引擎多媒体实验室的三维重建技术以及光场视频技术的原理、先进性及应用领域，帮助大家能更好的了解和认识三维重建技术，助力相关技术在实际产品和应用中落地。

1. 技术挑战与难点

文物的数字化需要对文物做三维重建和数字复原，同时也对三维重建技术提出了很大挑战：

文物采集需要使用对于文物无侵害的设备，传统的高精度激光等设备就无法使用。文物通常保护在陈列柜内，难以拿出，也对重建的采集提出了更高的要求；文物往往形状复杂，且具有一定的材质，尤其是古籍类文物，往往很薄，如何重建这种很薄的文物，是物品重建的一个难点。如何高真实感复现文物并表现其真实感纹理，包括漫反射、镜面反射、半透明，等复杂材质的恢复与微细表面的重建，也对技术提出了挑战；对于石窟等文物，需要采集并重建一定的空间，如何采用纯视觉的方式，在石窟内进行漫游采集，并进行完整重建，是项目的一个难点；为了更好地实现博物馆的文化推广，实现历史情景的在线还原，需要对动态人物和场景进行高真实度重建，然而，当前动态人物和场景的高真实度重建缺乏完整的有效解决方案。

2. 三维重建技术介绍

三维重建是计算机辅助几何设计(CAGD)、计算机图形学(CG)、计算机动画、计算机视觉、医学图像处理、科学计算和虚拟现实、数字媒体创作等领域的共性科学问题和核心技术。三维重建技术，一般包括数据采集 、预处理、 点云拼接、特征分析、网格及纹理生成等步骤。

传统的三维重建采用基于视觉或者基于多模态（深度数据，e.g.，激光）重建图像三维信息的过程，能够对静态物体和场景进行建模，但缺乏有效的对于动态物体和场景建模的整体解决方案。

火山引擎多媒体实验室具备自研的物品重建技术、场景重建技术，及光场视频技术，能够对静态物体构建高保真的形态，并恢复其复杂材质；能够对大场景，包括城市，园区，房屋空间等进行有效的建模，是数字孪生的重要基础；且能够对动态物体和动态场景，采用先进光场视频技术进行重建和复现，实现点播和直播，具备整套的技术解决方案。

2.1 物品重建技术：既要保护文物又要精确扫描

在“古籍寻游记”项目中，火山引擎多媒体实验室做了四十多样文物的数字复原。在做文物数字复原的过程中，遇到的第一个难点就是，文物是需要重点保护的，对于采集设备有一定的限制，比如，常用的高精度激光设备是不能够用来扫描文物的，这就驱使火山引擎多媒体实验室团队采用基于视觉的方式对文物进行三维重建。

然而传统基于视觉的重建方法无法处理弱纹理物体，而且对于形状比较复杂的物品也难以重建（例如狭长的简牍、扁平的甲骨）。为此，采用符号距离场（Signed Distance Fields，简称SDF）的技术方案来表示三维物体，结合深度学习的方法克服了以上重建难点。SDF 表示了空间中每个点到物体的有向距离，是一种隐式表示，二维SDF的示意图如下。

SDF 示意图

如何监督神经网络使其准确地拟合该 SDF 是需要研究的问题。先用运动恢复结构（Structure from Motion，简称SfM）算法，精确计算拍摄图像的相机姿态。有了相机姿态，利用可微渲染的方法将 SDF 所表示的空间信息渲染到图像上，把渲染得到的图像和该视角下采集的图像做比较，不断优化神经网络，使 SDF 在各个采集视角下的渲染结果尽可能与实际采集的图像一致。

为了进一步提高重建精细度，在优化 SDF 的时候加入稀疏重建得到的三维点做约束，能更好的还原物体的细节特征。为了达到完整重建的目的，火山引擎多媒体实验室还将分割算法和重建算法相结合，能够有效的重建出物体的底部区域。

由于物体在扫描过程中是要固定在某个位置，物体的底面采集不到图片的。物体的完整重建就是要解决物体底部重建的问题，通常的做法是悬线法或多段重建加后处理拼接。悬线法对文物来说不够安全，拼接后处理流程较长，不能自动化。为此，火山引擎多媒体实验室在重建算法中加入了自动化图像分割，能够将正反两次拍摄的数据统一起来一起重建，直接得到完整的重建结果，完整重建的结果对比如下图所示。

未使用完整重建技术建模结果

使用完整重建技术建模结果

高光是物体重建的一大挑战，一方面高光影响特征点匹配，导致恢复的相机位姿不准确，再一个高光也会破坏不同视角间观测结果的一致性，对重建造成干扰。为此，火山引擎多媒体实验室总结出一套利用偏振光消除高光的方法，能有效去除大量高光，高光消除的结果对比如下图所示。

消除高光前

消除高光后

火山引擎多媒体实验室的方法还可以模拟不同物体的反射/折射性质，实现对特殊材质物体的建模 ，文物重建的结果展示如下图所示。

文物原图

文物重建结果

Kits AI

Kits.ai 是一个为音乐家提供一站式AI音乐创作解决方案的网站，提供AI语音生成和免费AI语音训练

492 查看详情

四大博物馆的文物，有一些是纸质、竹简类的珍贵文物，这些文物也难以从陈列柜中取出并采集。针对这种情况，火山引擎多媒体实验室自研了加入光学偏振片的采集设备，可以消除玻璃陈列柜带来的杂光、高光和反射问题，使得我们在有一层玻璃保护壳的状态下，仍对文物进行高保真的扫描和重建。

玻璃陈列柜中文物

文物重建结果

此外，火山引擎多媒体实验室的物品重建技术还包含精确位姿估计、真实感纹理 ( 漫反射、镜面反射、半透明 ) 等复杂材质的恢复与微细表面的重建，也均在“古籍寻游记”项目中得以运用，将宝贵的文物实现高真实度的1:1还原，并转换为数字化资源，让观众“沉浸式”逛馆，让藏品更加深入人心。

火山引擎多媒体实验室的物体重建技术具备很强的普适性，不仅适用于文物，一般物体也同样适用，而且对一些传统重建难以处理的物体，比如，刀刃等非常薄的物体等，也能有不错的重建结果。

上：小刀及木棍等道具；下：电商物品

2.2 自建场景重建算法：更高效率、更高精度

场景重建是计算机视觉和摄影测量中的重要研究课题，也在智慧城市、虚拟现实、数字导航与数字遗产保护等方面有着重要的应用。通过视觉进行三维重建具有采集效率高、采集成本低、精度上限高、适应场景广等优点，同时可以避免其他扫描设备对场景带来不必要的损害，但在算法层面面临诸多挑战。对此， 火山引擎多媒体实验室结合 AI 技术与多视角几何基本原理，搭建了一套先进的鲁棒、精确完整视觉重建算法框架。 重建过程包括三个关键步骤 ：图像处理、 点云优化和网格重建 。

火山引擎多媒体实验室利用先进的人工智能技术，对图像进行去噪、超分 、特征提取与匹配等处理，从而克服了诸多传统方法限制。然后利用 SfM 算法以及捆集约束(Bundle Adjustment，简称 BA)从图像中提取稀疏几何结构和相机参数。同时团队开发了支持全景相机、多相机组、RGBD 相机、激光雷达、GPS/IMU 等多传感器数据输入的位姿估计算法，实现高精度、多模态、自适应的稀疏重建。为了处理大规模数据，团队开发分块重建和地图合并策略，实现分布式集群并行重建，显著提高了重建效率。

在完成场景稀疏重建后，通过立体视觉 (Multiple View Stereo，简称 MVS)技术将二维图像信息转化为三维点云信息。团队自研基于单目相机、双目相机和多目立体视觉的深度估计算法，通过神经网络进行稠密深度估计，在任意视差、各种纹理环境获得稳定优秀的表现。获得点云信息后，进行点云去噪和补全，并通过点云配准实现场景几何一致性。最后，通过基于 VoxelHash 和图像语义信息的点云融合策略，进一步滤除噪声，生成更加平滑一致的完整场景点云。

获得场景点云后，进行 Mesh 重建。火山引擎多媒体实验室自研多种网格优化算法，实现网格平滑、去噪、简化和补洞，获得更加精细、完整的高质量网格模型。得益于图像处理期间高精度的相机位姿估计以及图像超分等画质优化，结合自研贴图算法，获得更高清、拼缝更少的高质量纹理贴图。同时通过纹理重打包算法优化，实现更高的纹理利用率，降低存储资源浪费，提升纹理有效分辨率。

传统图像配准算法

火山引擎视频云算法

传统建模算法

火山引擎视频云算法建模结果

城市场景建模

火山引擎视频云算法

苏州圆通寺重建结果

火山引擎多媒体实验室的物品重建技术和场景重建技术可以等比例、高精度的复原不同大小、不同形状的文物。上述的技术可以将线下文物转换到线上，在PICO、抖音里实现文物的虚拟呈现，用户可以把甲骨文把玩在手里，清晰的看到上面的文字，实现传统参观没有的文物观赏体验，同时也可以跨越空间限制，置身并漫游在敦煌石窟里。另外，该项技术可以将线下珍贵文物转换为线上的永久数字资源，实现文物的数字化保护，可以让后世的人们身临其境体验到文物的全貌。

2.3 自研光场视频技术：平衡成本与精确度之间的难题

为了能够在虚拟敦煌石窟内，身临其境地观看一场盛世舞蹈，感受超越现实的体验，火山引擎多媒体实验室自研的光场视频技术，能够对动态人物和场景进行高真实度重建，达到行业先进水平。

动态三维网格数据（Dynamic Mesh），可以表示动态人物和场景，但是如何重建出高质量的动态三维网格，并使得新渲染出的图像能够如照片般逼真是一个难题。若通过三维场景设计师对场景进行手工重建，将获得较好的重建质量，但将付出较大的人力成本；若通过SFM/MVS等算法自动重建三维场景，则需要重建场景纹理有一定要求，且重建结果可能包含不精确的几何细节和纹理失真。

神经辐射场技术，采用神经网络对隐式重建，利用可微渲染模型，从已有视图中学习如何渲染新视角下的图像，从而实现照片级逼真的图像渲染，即神经辐射场（NeRF）技术。可微渲染模型建模了从三维空间模型及纹理到图像的渲染过程，其可微特性使得在已有视角图像的监督下，通过神经网络对三维空间几何及纹理进行学习。在未知新视角下，可以对学习到的三维空间几何进行重新渲染，从而获得新视角下的图像。

火山引擎多媒体实验室融合神经辐射场技术与传统的网格建模技术。在具体实践中，首先重建出人物的大致几何轮廓，并改进NeRF技术，融入几何轮廓作为先验加入训练指导，隐式学习三维空间几何，并重新渲染出稠密新视角下的图像。在神经辐射场训练过程中，针对动态人物场景，团队通过一些优化策略以提升该场景下的新视角生成效果，如借助基于哈希编码的层次化表达提升模型训练速度，借助流式训练提升动态场景的帧间一致性等。最后采用视频融合技术，能够自动学习背景信息，实现前景的重光照，使得前景演员与背景场景能够无缝融合。

同时，火山引擎多媒体实验室的光场视频技术，可以实现 NeRF 的编辑，重建并复现复杂的动态大场景。

火山引擎多媒体实验室的光场视频技术，仅仅需要稀疏的多相机输入，就能够生成稠密的光场数据，这主要是采用基于深度学习的新视角生成技术。光场视频数据相对传统视频数据，具有数据量大的特点，团队采用多视角聚合编码技术压缩光场数据，降低传输和存储的压力。结合大规模直播技术以及 RTC 传输技术，能够实现光场视频的点播和直播。

3. 总结与展望

随着3D技术的不断成熟，火山引擎多媒体实验室的3D技术不仅在VR领域、自动驾驶、视频直播、游戏等场景落地具体的应用，而且将会在在工业、医疗、建筑家居、航空航天等领域持续探索。火山引擎希望能够将物品重建技术、场景重建技术及光场视频技术广泛应用到各行各业的产品和项目中去，服务于企业客户，为用户带来更高清、更互动、更沉浸的创新体验。

火山引擎多媒体实验室是字节跳动旗下的研究团队，致力于探索多媒体领域的前沿技术，参与国际标准化工作，其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务，并向火山引擎的企业级客户提供技术服务。实验室成立以来，多篇论文入选国际顶会和旗舰期刊，并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

以上就是让文物“活”起来，火山引擎视频云三维重建技术揭秘的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/902496.html

ai j 三维重建字节编码

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

即时 AI功能重大更新支持生成 Web 设计稿并一键发布为在线网页！

上一篇 2025年11月28日 21:09:42

GPT-4变笨引爆舆论！文本代码质量都下降，OpenAI刚刚回应了降本减料质疑

下一篇 2025年11月28日 21:10:07

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
5000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
2000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
1000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
1000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

使用CSS mask属性指定图片URL时，为什么浏览器无法加载图片？

css mask属性未能加载图片的解决方法使用css mask属性指定图片url时，如示例中所示： mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是，在网络面板中却…

程序猿
2025年12月24日
0000
好文分享

如何用CSS Paint API为网页元素添加时尚的斑马线边框？

为元素添加时尚的斑马线边框在网页设计中，有时我们需要添加时尚的边框来提升元素的视觉效果。其中，斑马线边框是一种既醒目又别致的设计元素。实现斜向斑马线边框要实现斜向斑马线间隔圆环，我们可以使用css paint api。该api提供了强大的功能，可以让我们在元素上绘制复杂的图形。立即学习“前端…

程序猿
2025年12月24日
0000
好文分享

图片如何不撑高父容器？

如何让图片不撑高父容器？当父容器包含不同高度的子元素时，父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开，避免图片对其产生影响，可以通过以下 css 解决方法：绝对定位元素： .child-image { position: absolute; top: 0; left: …

程序猿
2025年12月24日
0000
CSS 帮助

我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

程序猿
2025年12月24日 • 好文分享
2000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
0000
好文分享

如何用 CSS Paint API 实现倾斜的斑马线间隔圆环？

实现斑马线边框样式：探究 css paint api 本文将探究如何使用 css paint api 实现倾斜的斑马线间隔圆环。问题：给定一个有多个圆圈组成的斑马线图案，如何使用 css 实现倾斜的斑马线间隔圆环？答案：立即学习“前端免费学习笔记（深入）”；使用 css paint api…

程序猿
2025年12月24日
0000
好文分享

如何使用CSS Paint API实现倾斜斑马线间隔圆环边框？

css实现斑马线边框样式想定制一个带有倾斜斑马线间隔圆环的边框？现在使用css paint api，定制任何样式都轻而易举。 css paint api 这是一个新的css特性，允许开发人员创建自定义形状和图案，其中包括斑马线样式。立即学习“前端免费学习笔记（深入）”；实现倾斜斑马线间隔圆环 …

程序猿
2025年12月24日
1000