推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」

10毫秒生成一张图像,1分钟6000张图像,这是什么概念?

下图中,就可以深刻感受到AI的超能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

如此惊人的图片实时生成速度,便是来自UC伯克利、日本筑波大学等研究人员提出StreamDiffusion带来的结果。

这个全新的解决方案是一种扩散模型流程,能够以超过100fps的速度,实现实时交互式图像生成。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

论文地址:https://arxiv.org/abs/2312.12491

StreamDiffusion开源后直接霸榜GitHub,狂揽3.7k星。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

StreamDiffusion创新性采用了批处理策略,而非序列去噪,比传统方法快大约1.5倍。而且作者提出的新型剩余无分类器引导(RCFG)算法能够比传统无分类引导快2.05倍。

最值得一提的是,新方法在RTX 4090上,图像到图像的生成速度可达91.07fps。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

未来,在元宇宙、视频游戏图形渲染、直播视频流等不同场景中,StreamDiffusion快速生成能够满足这些应用的高吞吐量的需求。

尤其,实时的图像生成,能够为那些游戏开发、视频渲染的打工人们,提供了强大的编辑和创作能力。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

专为实时图像生成设计

目前,在各个领域中,扩散模型的应用需要具备高吞吐量和低延迟的扩散管道,以确保人机交互的高效性

一个典型的例子是,用扩散模型创建虚拟角色VTuber——能够对用户的输入做出流畅的反应。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

为了提高高吞吐量和实时交互能力,目前研究的方向主要集中在,减少去噪迭代次数,比如从50次迭代减少到几次,甚至一次。

常见的策略是将多步扩散模型提炼成几个步骤,用神经常微分方程(ODE)重新构建扩散过程。为提高效率,也有人对扩散模型进行了量化。

最新论文中,研究人员从正交方向(orthogonal direction)开始,引入了StreamDiffusion——一种实时扩散管道,专为互动式图像生成的高吞吐量而设计。

现有的模型设计工作可以与StreamDiffusion集成,同时还可以使用N步去噪扩散模型,以保持高吞吐量,并为用户提供更灵活的选择

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

实时图像生成|第一列和第二列:AI辅助实时绘图的示例,第三列:从3D头像实时渲染2D插图。第四列和第五列:实时相机滤镜。实时图像生成|第一列和第二列展示了AI辅助实时绘图的示例,第三列展示了通过实时渲染3D头像生成2D插图的过程。第四列和第五列展示了实时相机滤镜的效果

具体是如何实现的?

StreamDiffusion架构

StreamDiffusion是一种新的扩散管道,旨在提高吞吐量。

它由若干关键部分组成:

流批处理策略、剩余无分类器引导(RCFG)、输入输出队列、随机相似滤波(Stochastic Similarity Filter)、预计算程序、微型自动编码器的模型加速工具。

批处理去噪

在扩散模型中,去噪步骤是按顺序进行的,这就导致了U-Net的处理时间,与步骤数成比例增加。

然而,为了生成高保真的图像,就不得不增加步数。

为了解决交互式扩散中的高延迟生成的问题,研究人员提出了一种叫做Stream Batch的方法。

如下图所示,在最新的方法中,在处理下一个输入图像之前,不会等待单个图像完全去噪,而是在每个去噪步骤后接受下一个输入图像。

这样就形成了一个去噪批次,每个图像的去噪步骤交错进行。

通过将这些交错的去噪步骤串联成一个批次,研究人员就能使用U-Net高效地处理连续输入的批次。

在时间步t处编码的输入图像在时间步t+n处生成并解码,其中n是去噪步骤的数目。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

剩余无分类器引导(RCFG)

常见的无分类器指导(CFG)是一种,通过在无条件或否定条件项和原条件项之间执行向量计算。来增强原条件的效果的算法。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

这可以带来诸如加强提示的效果之类的好处。

然而,为了计算负条件剩余噪声,需要将每个输入潜变量与负条件嵌入配对,并在每个推理时间将其传递给U-Net。

为了解决这个问题,作者引入了一种创新的剩余无分类器引导(RCFG)

这种方法利用虚拟剩余噪声来逼近负条件,使得我们只需要在过程的初始阶段就能够计算负条件噪声,从而显著降低了负条件嵌入时额外的U-Net推理计算成本

输入输出队列

将输入图像转换为管道可管理的张量数据格式,反过来,将解码后的张量转换回输出图像,都需要不可忽略的额外处理时间。

为了避免将这些图像处理时间添加到神经网络推理流程中,我们将图像预处理和后处理分离到不同的线程中,从而实现并行处理。

此外,通过使用输入张量队列,还能应对因设备故障或通信错误造成的输入图像临时中断,从而实现流畅的流式传输。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

随机相似滤波(Stochastic Similarity Filter)

如下图是,核心扩散推理管道,包含VAE和U-Net。

通过引入去噪批处理和预先计算的提示嵌入缓存、采样噪声缓存和调度器值缓存,提高了推理流水线的速度,实现了实时图像生成。

随机相似滤波(SSF)是为了节省GPU功耗而设计的,可以动态关闭扩散模型管道,进而实现了快速高效的实时推理。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

预计算

U-Net架构既需要输入潜在变量,也需要条件嵌入。

通常情况下,条件嵌入来源于「提示嵌入」,在不同帧之间保持不变。

为了优化这一点,研究人员预先计算提示嵌入,并将其存储在缓存中。在交互或流模式下,这个预先计算的提示嵌入缓存会被召回。

在U-Net中,每一帧的键和值的计算是基于预先计算的提示嵌入实现的

因此,研究人员对U-Net进行修改,以存储这些键和值对,使其可以重复使用。每当输入提示更新时,研究人员都会在U-Net内重新计算和更新这些键和值对。

模型加速和微型自动编码器

为了优化速度,我们将系统配置为使用静态批大小和固定输入大小(高度和宽度)。

这种方法确保计算图和内存分配针对特定的输入大小进行优化,从而加快处理速度。

然而,这意味着如果需要处理不同形状的图像(即不同的高度和宽度),使用不同的批大小(包括去噪步骤的批次大小)。

实验评估

去噪批的定量评估

图8展示了批量去噪和原始顺序U-Net循环的效率比较

在实施批去噪策略时,研究人员发现处理时间有了显著改善。与顺序去噪步骤的传统U-Net循环相比,减少了一半的时间。

即使应用了神经模块加速工具TensorRT,研究人员提出的流批处理在不同的去噪步骤中仍能大幅提高原始顺序扩散管道的效率。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

此外,研究人员还将最新方法与Huggingface Diffusers开发的AutoPipeline-ForImage2Image管道进行了比较。

平均推理时间比较见表1,最新管道显示速度有了大幅提升。

在使用TensorRT时,StreamDiffusion能够在运行10个去噪步骤时实现13倍的速度提升。而在只涉及单个去噪步骤的情况下,速度提升可达59.6倍

即使没有TensorRT,StreamDiffusion在使用单步去噪时也比AutoPipeline提高了29.7倍,在使用10步去噪时提高了8.3倍。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

表2比较了使用RCFG和常规CFG的流扩散管道的推理时间。

在单步去噪的情况下,Onetime-Negative RCFG和传统CFG的推理时间几乎相同。

所以One-time RCFG和传统CFG在单步去噪时推理时间差不多。但是随着去噪步骤增加,从传统CFG到RCFG的推理速度提升变得更明显。

在第5步去噪时,Self-Negative RCFG比传统CFG快2.05倍,Onetime-Negative RCFG比传统CFG快1.79倍。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

在此之后,研究人员对所提出的SSF的能耗进行了全面评估。这一过程的结果可以在图6和图7中看到

这些图展示了在输入视频中应用 SSF(将阈值η设为0.98)到包含周期性静态特征场景时GPU的使用模式

对比分析表明,在输入图像主要是静态图像且具有高度相似性的情况下,采用SSF可以显著降低GPU的使用率。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

消融研究

不同模块对不同去噪步骤下平均推理时间的影响如表3。可以看得见,不同模块的消减在图像到图像的生成过程中得到了验证。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

定性结果

在图10中展示了使用剩余无分类器导引(RCFG)对生成的图像进行快速条件调整的对齐过程

生成的图像,没有使用任何形式的CFG,显示弱对齐提示,特别是在方面,如颜色变化或添加不存在的元素,这是没有得到有效实现。

相比之下,CFG或RCFG的使用增强了修改原始图像的能力,例如改变头发颜色,添加身体模式,甚至包含像眼镜这样的物体。值得注意的是,与标准CFG相比,RCFG的使用可以加强提示的影响。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

最后,标准文本到图像生成结果的质量如图11所示。

使用sd-turbo模型,只需一步就可以生成像图11所示的那样的高质量图像。

当在 GPU: RTX 4090,CPU: Core i9-13900K,OS: Ubuntu 22.04.3 LTS的环境中,使用研究人员提出的流扩散管道和sd-turbo模型生成图像时,以超100fps的速率生成这种高质量的图像是可行的。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

网友上手,一大波二次元小姐姐来了

最新项目的代码已经开源,在Github已经收揽3.7k星。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

项目地址:https://github.com/cumulo-autumn/StreamDiffusion

许多网友已经开始生成自己的二次元老婆了。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

还有真人变实时动画。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

10倍速手绘生成。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

感兴趣的童鞋们,不如自己动手吧。

参考资料:

Vizard Vizard

AI驱动的视频编辑器

Vizard 101 查看详情 Vizard

https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be

https://www.php.cn/link/75a6e5993aefba4f6cb07254637a6133

以上就是推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/869952.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月28日 04:34:13
下一篇 2025年11月28日 04:34:35

相关推荐

  • Uniapp 中如何不拉伸不裁剪地展示图片?

    灵活展示图片:如何不拉伸不裁剪 在界面设计中,常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。 对于不同尺寸的图片,可以采用以下处理方式: 极端宽高比:撑满屏幕宽度或高度,再等比缩放居中。非极端宽高比:居中显示,若能撑满则撑满。 然而,如果需要不拉伸不…

    2025年12月24日
    400
  • 如何让小说网站控制台显示乱码,同时网页内容正常显示?

    如何在不影响用户界面的情况下实现控制台乱码? 当在小说网站上下载小说时,大家可能会遇到一个问题:网站上的文本在网页内正常显示,但是在控制台中却是乱码。如何实现此类操作,从而在不影响用户界面(UI)的情况下保持控制台乱码呢? 答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体,并通过在客户端…

    2025年12月24日
    800
  • 如何在地图上轻松创建气泡信息框?

    地图上气泡信息框的巧妙生成 地图上气泡信息框是一种常用的交互功能,它简便易用,能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。 利用地图库的原生功能 大多数地图库,如高德地图,都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现: 高德地图 JS API 参考文…

    2025年12月24日
    400
  • 如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画?

    如何实现元素scrollleft变化时的平滑动画效果? 在许多网页应用中,滚动容器的水平滚动条(scrollleft)需要频繁使用。为了让滚动动作更加自然,你希望给scrollleft的变化添加动画效果。 解决方案:scroll-behavior 属性 要实现scrollleft变化时的平滑动画效果…

    2025年12月24日
    000
  • 如何为滚动元素添加平滑过渡,使滚动条滑动时更自然流畅?

    给滚动元素平滑过渡 如何在滚动条属性(scrollleft)发生改变时为元素添加平滑的过渡效果? 解决方案:scroll-behavior 属性 为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码: click the button to slide right!…

    2025年12月24日
    500
  • 如何选择元素个数不固定的指定类名子元素?

    灵活选择元素个数不固定的指定类名子元素 在网页布局中,有时需要选择特定类名的子元素,但这些元素的数量并不固定。例如,下面这段 html 代码中,activebar 和 item 元素的数量均不固定: *n *n 如果需要选择第一个 item元素,可以使用 css 选择器 :nth-child()。该…

    2025年12月24日
    200
  • 使用 SVG 如何实现自定义宽度、间距和半径的虚线边框?

    使用 svg 实现自定义虚线边框 如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片,但是这种方法存在引入外部资源、性能低下的缺点。 为了避免上述问题,可以使用 svg(可缩放矢量图形)来创建纯代码实现。一种方…

    2025年12月24日
    100
  • 如何让“元素跟随文本高度,而不是撑高父容器?

    如何让 元素跟随文本高度,而不是撑高父容器 在页面布局中,经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中,父容器被较高的图片撑开,而文本的高度没有被考虑。本问答将提供纯css解决方案,让图片跟随文本高度,确保父容器的高度不会被图片影响。 解决方法 为了解决这个问题,需要将图片从文档流中脱离…

    2025年12月24日
    000
  • 为什么 CSS mask 属性未请求指定图片?

    解决 css mask 属性未请求图片的问题 在使用 css mask 属性时,指定了图片地址,但网络面板显示未请求获取该图片,这可能是由于浏览器兼容性问题造成的。 问题 如下代码所示: 立即学习“前端免费学习笔记(深入)”; icon [data-icon=”cloud”] { –icon-cl…

    2025年12月24日
    200
  • 如何利用 CSS 选中激活标签并影响相邻元素的样式?

    如何利用 css 选中激活标签并影响相邻元素? 为了实现激活标签影响相邻元素的样式需求,可以通过 :has 选择器来实现。以下是如何具体操作: 对于激活标签相邻后的元素,可以在 css 中使用以下代码进行设置: li:has(+li.active) { border-radius: 0 0 10px…

    2025年12月24日
    100
  • 如何模拟Windows 10 设置界面中的鼠标悬浮放大效果?

    win10设置界面的鼠标移动显示周边的样式(探照灯效果)的实现方式 在windows设置界面的鼠标悬浮效果中,光标周围会显示一个放大区域。在前端开发中,可以通过多种方式实现类似的效果。 使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

    2025年12月24日
    200
  • 为什么我的 Safari 自定义样式表在百度页面上失效了?

    为什么在 Safari 中自定义样式表未能正常工作? 在 Safari 的偏好设置中设置自定义样式表后,您对其进行测试却发现效果不同。在您自己的网页中,样式有效,而在百度页面中却失效。 造成这种情况的原因是,第一个访问的项目使用了文件协议,可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

    2025年12月24日
    000
  • 如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果?

    如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果 想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果,可以通过以下途径: CSS 解决方案 DEMO 1: Windows 10 网格悬停效果:https://codepen.io/tr4553r7/pe…

    2025年12月24日
    000
  • 使用CSS mask属性指定图片URL时,为什么浏览器无法加载图片?

    css mask属性未能加载图片的解决方法 使用css mask属性指定图片url时,如示例中所示: mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是,在网络面板中却…

    2025年12月24日
    000
  • 如何用CSS Paint API为网页元素添加时尚的斑马线边框?

    为元素添加时尚的斑马线边框 在网页设计中,有时我们需要添加时尚的边框来提升元素的视觉效果。其中,斑马线边框是一种既醒目又别致的设计元素。 实现斜向斑马线边框 要实现斜向斑马线间隔圆环,我们可以使用css paint api。该api提供了强大的功能,可以让我们在元素上绘制复杂的图形。 立即学习“前端…

    2025年12月24日
    000
  • 图片如何不撑高父容器?

    如何让图片不撑高父容器? 当父容器包含不同高度的子元素时,父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开,避免图片对其产生影响,可以通过以下 css 解决方法: 绝对定位元素: .child-image { position: absolute; top: 0; left: …

    2025年12月24日
    000
  • CSS 帮助

    我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

    2025年12月24日 好文分享
    200
  • 前端代码辅助工具:如何选择最可靠的AI工具?

    前端代码辅助工具:可靠性探讨 对于前端工程师来说,在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而,并非所有工具都能提供同等的可靠性。 个性化需求 关于哪个AI工具最可靠,这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素: 立…

    2025年12月24日
    000
  • 如何用 CSS Paint API 实现倾斜的斑马线间隔圆环?

    实现斑马线边框样式:探究 css paint api 本文将探究如何使用 css paint api 实现倾斜的斑马线间隔圆环。 问题: 给定一个有多个圆圈组成的斑马线图案,如何使用 css 实现倾斜的斑马线间隔圆环? 答案: 立即学习“前端免费学习笔记(深入)”; 使用 css paint api…

    2025年12月24日
    000
  • 如何使用CSS Paint API实现倾斜斑马线间隔圆环边框?

    css实现斑马线边框样式 想定制一个带有倾斜斑马线间隔圆环的边框?现在使用css paint api,定制任何样式都轻而易举。 css paint api 这是一个新的css特性,允许开发人员创建自定义形状和图案,其中包括斑马线样式。 立即学习“前端免费学习笔记(深入)”; 实现倾斜斑马线间隔圆环 …

    2025年12月24日
    100

发表回复

登录后才能评论
关注微信