推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」

10毫秒生成一张图像,1分钟6000张图像,这是什么概念?

下图中,就可以深刻感受到AI的超能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

如此惊人的图片实时生成速度,便是来自UC伯克利、日本筑波大学等研究人员提出StreamDiffusion带来的结果。

这个全新的解决方案是一种扩散模型流程,能够以超过100fps的速度,实现实时交互式图像生成。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

论文地址:https://arxiv.org/abs/2312.12491

StreamDiffusion开源后直接霸榜GitHub,狂揽3.7k星。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

StreamDiffusion创新性采用了批处理策略,而非序列去噪,比传统方法快大约1.5倍。而且作者提出的新型剩余无分类器引导(RCFG)算法能够比传统无分类引导快2.05倍。

最值得一提的是,新方法在RTX 4090上,图像到图像的生成速度可达91.07fps。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

未来,在元宇宙、视频游戏图形渲染、直播视频流等不同场景中,StreamDiffusion快速生成能够满足这些应用的高吞吐量的需求。

尤其,实时的图像生成,能够为那些游戏开发、视频渲染的打工人们,提供了强大的编辑和创作能力。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

专为实时图像生成设计

目前,在各个领域中,扩散模型的应用需要具备高吞吐量和低延迟的扩散管道,以确保人机交互的高效性

一个典型的例子是,用扩散模型创建虚拟角色VTuber——能够对用户的输入做出流畅的反应。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

为了提高高吞吐量和实时交互能力,目前研究的方向主要集中在,减少去噪迭代次数,比如从50次迭代减少到几次,甚至一次。

常见的策略是将多步扩散模型提炼成几个步骤,用神经常微分方程(ODE)重新构建扩散过程。为提高效率,也有人对扩散模型进行了量化。

最新论文中,研究人员从正交方向(orthogonal direction)开始,引入了StreamDiffusion——一种实时扩散管道,专为互动式图像生成的高吞吐量而设计。

现有的模型设计工作可以与StreamDiffusion集成,同时还可以使用N步去噪扩散模型,以保持高吞吐量,并为用户提供更灵活的选择

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

实时图像生成|第一列和第二列:AI辅助实时绘图的示例,第三列:从3D头像实时渲染2D插图。第四列和第五列:实时相机滤镜。实时图像生成|第一列和第二列展示了AI辅助实时绘图的示例,第三列展示了通过实时渲染3D头像生成2D插图的过程。第四列和第五列展示了实时相机滤镜的效果

具体是如何实现的?

StreamDiffusion架构

StreamDiffusion是一种新的扩散管道,旨在提高吞吐量。

它由若干关键部分组成:

流批处理策略、剩余无分类器引导(RCFG)、输入输出队列、随机相似滤波(Stochastic Similarity Filter)、预计算程序、微型自动编码器的模型加速工具。

批处理去噪

在扩散模型中,去噪步骤是按顺序进行的,这就导致了U-Net的处理时间,与步骤数成比例增加。

然而,为了生成高保真的图像,就不得不增加步数。

为了解决交互式扩散中的高延迟生成的问题,研究人员提出了一种叫做Stream Batch的方法。

如下图所示,在最新的方法中,在处理下一个输入图像之前,不会等待单个图像完全去噪,而是在每个去噪步骤后接受下一个输入图像。

这样就形成了一个去噪批次,每个图像的去噪步骤交错进行。

通过将这些交错的去噪步骤串联成一个批次,研究人员就能使用U-Net高效地处理连续输入的批次。

在时间步t处编码的输入图像在时间步t+n处生成并解码,其中n是去噪步骤的数目。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

剩余无分类器引导(RCFG)

常见的无分类器指导(CFG)是一种,通过在无条件或否定条件项和原条件项之间执行向量计算。来增强原条件的效果的算法。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

这可以带来诸如加强提示的效果之类的好处。

然而,为了计算负条件剩余噪声,需要将每个输入潜变量与负条件嵌入配对,并在每个推理时间将其传递给U-Net。

为了解决这个问题,作者引入了一种创新的剩余无分类器引导(RCFG)

这种方法利用虚拟剩余噪声来逼近负条件,使得我们只需要在过程的初始阶段就能够计算负条件噪声,从而显著降低了负条件嵌入时额外的U-Net推理计算成本

输入输出队列

将输入图像转换为管道可管理的张量数据格式,反过来,将解码后的张量转换回输出图像,都需要不可忽略的额外处理时间。

为了避免将这些图像处理时间添加到神经网络推理流程中,我们将图像预处理和后处理分离到不同的线程中,从而实现并行处理。

此外,通过使用输入张量队列,还能应对因设备故障或通信错误造成的输入图像临时中断,从而实现流畅的流式传输。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

随机相似滤波(Stochastic Similarity Filter)

如下图是,核心扩散推理管道,包含VAE和U-Net。

通过引入去噪批处理和预先计算的提示嵌入缓存、采样噪声缓存和调度器值缓存,提高了推理流水线的速度,实现了实时图像生成。

随机相似滤波(SSF)是为了节省GPU功耗而设计的,可以动态关闭扩散模型管道,进而实现了快速高效的实时推理。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

预计算

U-Net架构既需要输入潜在变量,也需要条件嵌入。

通常情况下,条件嵌入来源于「提示嵌入」,在不同帧之间保持不变。

为了优化这一点,研究人员预先计算提示嵌入,并将其存储在缓存中。在交互或流模式下,这个预先计算的提示嵌入缓存会被召回。

在U-Net中,每一帧的键和值的计算是基于预先计算的提示嵌入实现的

因此,研究人员对U-Net进行修改,以存储这些键和值对,使其可以重复使用。每当输入提示更新时,研究人员都会在U-Net内重新计算和更新这些键和值对。

模型加速和微型自动编码器

为了优化速度,我们将系统配置为使用静态批大小和固定输入大小(高度和宽度)。

这种方法确保计算图和内存分配针对特定的输入大小进行优化,从而加快处理速度。

然而,这意味着如果需要处理不同形状的图像(即不同的高度和宽度),使用不同的批大小(包括去噪步骤的批次大小)。

实验评估

去噪批的定量评估

图8展示了批量去噪和原始顺序U-Net循环的效率比较

在实施批去噪策略时,研究人员发现处理时间有了显著改善。与顺序去噪步骤的传统U-Net循环相比,减少了一半的时间。

即使应用了神经模块加速工具TensorRT,研究人员提出的流批处理在不同的去噪步骤中仍能大幅提高原始顺序扩散管道的效率。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

此外,研究人员还将最新方法与Huggingface Diffusers开发的AutoPipeline-ForImage2Image管道进行了比较。

平均推理时间比较见表1,最新管道显示速度有了大幅提升。

在使用TensorRT时,StreamDiffusion能够在运行10个去噪步骤时实现13倍的速度提升。而在只涉及单个去噪步骤的情况下,速度提升可达59.6倍

即使没有TensorRT,StreamDiffusion在使用单步去噪时也比AutoPipeline提高了29.7倍,在使用10步去噪时提高了8.3倍。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

表2比较了使用RCFG和常规CFG的流扩散管道的推理时间。

在单步去噪的情况下,Onetime-Negative RCFG和传统CFG的推理时间几乎相同。

所以One-time RCFG和传统CFG在单步去噪时推理时间差不多。但是随着去噪步骤增加,从传统CFG到RCFG的推理速度提升变得更明显。

在第5步去噪时,Self-Negative RCFG比传统CFG快2.05倍,Onetime-Negative RCFG比传统CFG快1.79倍。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

在此之后,研究人员对所提出的SSF的能耗进行了全面评估。这一过程的结果可以在图6和图7中看到

这些图展示了在输入视频中应用 SSF(将阈值η设为0.98)到包含周期性静态特征场景时GPU的使用模式

对比分析表明,在输入图像主要是静态图像且具有高度相似性的情况下,采用SSF可以显著降低GPU的使用率。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

消融研究

不同模块对不同去噪步骤下平均推理时间的影响如表3。可以看得见,不同模块的消减在图像到图像的生成过程中得到了验证。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

定性结果

在图10中展示了使用剩余无分类器导引(RCFG)对生成的图像进行快速条件调整的对齐过程

生成的图像,没有使用任何形式的CFG,显示弱对齐提示,特别是在方面,如颜色变化或添加不存在的元素,这是没有得到有效实现。

相比之下,CFG或RCFG的使用增强了修改原始图像的能力,例如改变头发颜色,添加身体模式,甚至包含像眼镜这样的物体。值得注意的是,与标准CFG相比,RCFG的使用可以加强提示的影响。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

最后,标准文本到图像生成结果的质量如图11所示。

使用sd-turbo模型,只需一步就可以生成像图11所示的那样的高质量图像。

当在 GPU: RTX 4090,CPU: Core i9-13900K,OS: Ubuntu 22.04.3 LTS的环境中,使用研究人员提出的流扩散管道和sd-turbo模型生成图像时,以超100fps的速率生成这种高质量的图像是可行的。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

网友上手,一大波二次元小姐姐来了

最新项目的代码已经开源,在Github已经收揽3.7k星。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

项目地址:https://github.com/cumulo-autumn/StreamDiffusion

许多网友已经开始生成自己的二次元老婆了。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

还有真人变实时动画。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

10倍速手绘生成。

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放图片

感兴趣的童鞋们,不如自己动手吧。

参考资料:

Vizard Vizard

AI驱动的视频编辑器

Vizard 101 查看详情 Vizard

https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be

https://www.php.cn/link/75a6e5993aefba4f6cb07254637a6133

以上就是推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/869952.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月28日 04:34:13
下一篇 2025年11月28日 04:34:35

相关推荐

  • 链接价格下跌:抵抗的拒绝 – 深度潜水是不可避免的吗?

    chainlink(link)在遭遇关键阻力位压制后,价格出现下跌趋势,未来是反弹还是继续走低? LINK价格大幅回落:受阻于关键阻力——更深的回调是否已成定局? Chainlink(LINK)近期遭遇市场抛压,在重要阻力区域未能突破后,价格下挫了3.8%。这是短期调整,还是更大跌幅的开始?我们来一…

    2025年12月8日
    000
  • 2025合规SAHARA交易所TOP10

    一键直达|2025主流加密资产交易所平台 Binance币安 Huobi火币 欧易OKX 2025年合规SAHARA交易所TOP10——全球最具监管资质的平台评选 随着全球对数字资产监管逐步明晰,合规性已成为衡量交易所可信度与可持续性的核心指标。对于SAHARA等新兴资产而言,选择合规交易所,不仅保…

    2025年12月8日
    000
  • 支持多链SAHARA的交易所推荐_2025年SAHARA跨链兑换首选平台推荐

    一键直达|2025主流加密资产交易所平台 Binance币安 Huobi火币 欧易OKX 2025年支持多链SAHARA交易所推荐——跨链兑换首选平台TOP5 随着SAHARA生态的拓展,该币种已部署于多个主流区块链(如 Ethereum、BNB Chain、Polygon、Arbitrum 等),…

    2025年12月8日
    000
  • SAHARA安全交易所介绍_2025年零风险SAHARA平台精选

    一键直达|2025主流加密资产交易所平台 Binance币安 Huobi火币 欧易OKX 2025年SAHARA安全交易所推荐——零风险平台精选 随着SAHARA在全球数字资产市场中的流通日益增加,用户在投资与交易过程中对“安全性”的要求也持续提升。2025年,真正实现资金安全、风控完备、系统稳固的…

    2025年12月8日
    000
  • 欧易交易平台怎么样 虚拟币交易平台对比

    数字资产交易平台是投资者进行加密货币买卖的核心场所。它们如同传统的股票交易所,为用户提供撮合交易、资产存储、充值提现等一系列服务。选择一个合适的平台,对于数字资产的交易体验和资金安全至关重要。不同的平台在服务内容、交易费用、安全性、资产种类以及用户体验等方面存在差异。 欧易交易平台 (OKX) 欧易…

    2025年12月8日
    000
  • 定投收益缩水!以太坊质押APY降至3.6%的应对策略

    近期以太坊质押的年化收益率(APY)降至约3.6%,这让许多寻求稳定收益的参与者感到收益缩水。本文将详细阐述一种结合了定投(DCA)和流动性挖矿的组合策略,旨在应对单一质押收益下降的问题。通过讲解这套组合策略的操作过程,为您提供一个优化“躺赚”收益的参考方案。 2025以太坊交易平台官网注册地址推荐…

    2025年12月8日 好文分享
    000
  • 2025年MEME币交易主战场:热门平台交易量排行榜

    进入2025年,加密货币市场展现出与以往截然不同的活力,其中MEME币板块的崛起尤为引人注目。这些源于互联网文化、由社区驱动的数字资产,已经从边缘化的玩笑演变为一股不可忽视的金融力量。它们不再仅仅是投机者的乐园,更成为了衡量市场情绪和散户参与度的重要指标。强大的社区共识和病毒式的社交媒体传播,是ME…

    2025年12月8日 好文分享
    000
  • 新兴SAHARA交易所评测_2025年SAHARA潜力黑马平台

    一键直达|2025主流加密资产交易所平台 Binance币安 Huobi火币 欧易OKX 2025年新兴SAHARA交易所评测——潜力黑马平台深度解析 随着SAHARA资产在市场上的持续走热,一批新兴交易所迅速崛起,凭借创新的产品设计、灵活的合规策略和差异化服务,成为投资者关注的“潜力黑马”。本文精…

    2025年12月8日
    000
  • 交易所平台可靠性参考:2025年持续高交易量App观察

    进入数字资产交易领域,选择一个可靠的平台是投资者保障资产安全与提升交易效率的关键。当前市场中,众多交易所凭借其庞大的用户基础、深厚的市场流动性以及完善的产品矩阵,构建了各自独特的竞争优势。平台的可靠性并非单一维度可以衡量,它综合了技术安全、资产储备、合规水平、用户体验等多方面因素。交易量作为一个直观…

    2025年12月8日 好文分享
    000
  • 必安安卓版安装教程 手机端Binance APP最新下载链接

    币安(binance)是全球知名的加密货币交易平台,为全球用户提供广泛的数字资产交易及相关服务。作为世界领先的数字资产交易平台,币安致力于提供安全、便捷、高效的交易体验。 官方下载地址: 币安交易所详细介绍 1. 交易品种丰富:币安提供极其丰富的数字资产交易对,涵盖了比特币(BTC)、以太坊(ETH…

    2025年12月8日
    000
  • 必安交易所APP下载 官方正版Binance安装包获取方式

    必安交易所APP下载 官方正版Binance安装包获取方式 必安交易所,是全球领先的数字资产交易平台之一,为用户提供广泛的加密货币交易及相关服务。平台以其强大的技术基础、深厚的市场流动性、多样的交易产品和严格的安全措施而闻名,服务于全球数百万用户,支持多种主流及创新型数字货币的交易。 官方下载地址:…

    2025年12月8日
    000
  • 2025年主流交易所币种丰富度与交易量排行榜

    进入2025年,全球数字资产市场呈现出高度活跃与专业化的竞争格局。交易所作为连接用户与数字资产的核心枢纽,其重要性不言而喻。衡量一家交易所综合实力的关键指标,主要集中在其币种丰富度与市场交易量上。币种的广度与深度决定了交易所能否满足不同风险偏好用户的投资需求,从主流的价值币到新兴的潜力项目,全面的资…

    2025年12月8日 好文分享
    000
  • 稳定币如何实现1:1锚定? 新手购买稳定币全攻略

    稳定币是一种加密货币,其价值被设计成与某种稳定资产(通常是法币,如美元)保持1:1的锚定关系。它们的出现,旨在结合加密货币的去中心化、无国界等特性,同时规避传统加密资产如比特币、以太坊等的价格剧烈波动性。 稳定币的锚定机制 1. 法币抵押型稳定币。 这类稳定币的价值由等值的传统法币储备支持。发行方声…

    2025年12月8日
    000
  • 币安iOS版如何安装 苹果手机Binance官方APP下载指南

    币安iOS版如何安装 苹果手机Binance官方APP下载指南 币安作为全球知名的加密货币交易平台,凭借其庞大的交易量和丰富的数字资产种类,服务于全球数千万用户。它提供一站式的加密货币交易与生态服务,是数字资产领域的重要参与者。 官方下载地址: 交易所核心特点与优势 1. 币安提供极为广泛的加密货币…

    2025年12月8日
    000
  • 2025年交易所24小时交易峰值:哪些平台市场最活跃?

    在数字资产的世界里,交易平台的活跃度是衡量其市场地位、流动性深度与用户信任度的核心标尺。24小时交易峰值,这个看似简单的数字,背后浓缩了一个平台的综合实力。它不仅反映了市场在特定时间内的热度与资金流向,更揭示了平台在资产多样性、交易引擎性能、风险控制体系以及全球用户基础等多个维度的竞争力。当巨量的买…

    2025年12月8日 好文分享
    000
  • 什么是NodeOps(NODE)?值得投资吗?NodeOps(NODE)项目全面介绍

    目录 简要事实:NodeOps(NODE)概览NodeOps 是什么?NODE 代币有多少?NODE 代币有何作用?NodeOps 的核心产品和服务NodeOps(NODE)与以太坊(ETH):两层的故事NodeOps背后的技术团队与起源NODE 是否是一项潜在的优质投资?平衡的观点潜在优势需要考虑…

    2025年12月8日 好文分享
    000
  • 被低估的加密代币:计算令牌窃取节目吗?

    计算代币因其在人工智能和分布式计算领域的潜力而逐渐受到关注,但在与gamefi及传统金融的对比中,它们是否仍被低估? 被低估的加密资产:计算代币正悄然崛起? =================== 加密市场正在升温,但并不是每种代币都获得同等的关注。尽管GameFi代币往往因其前景而被高估,但另一类…

    2025年12月8日
    000
  • Apple,Openai和Siri的AI大修:纽约的一分钟技术戏剧

    据报道,苹果公司正在与openai和anthropic展开对话,希望借助先进的ai技术对siri进行重大升级。本文将探讨这一潜在变革及其对用户可能带来的影响。 苹果正在加速追赶AI浪潮,而Siri正面临巨大的升级压力。消息称,苹果有意携手Openai与Anthropic,为Siri带来一次深度重塑。…

    2025年12月8日
    000
  • 交易平台整体规模对比:2025年交易所总交易量及用户体量排名

    进入2025年,全球数字资产市场呈现出高度分化与竞争集中的格局。交易平台作为连接用户与数字资产的核心枢纽,其重要性不言而喻。平台的规模不再仅仅由单一的交易量数据来衡量,而是综合了用户体量、资产多样性、产品深度、品牌影响力以及全球合规化布局等多重维度的复杂考量。这一年,各大交易平台在巩固自身核心优势地…

    2025年12月8日 好文分享
    000
  • BNB Chain日活破千万!DEX防夹机制碾压以太坊?

    BNB Chain近期日活用户数表现亮眼,其生态的繁荣引发广泛关注。本文主要围绕标题中“DEX防夹机制是否优于以太坊”这一问题展开,将通过深入对比PancakeSwap V4与Uniswap V4的核心机制来进行解答。文章会详细阐述两者在应对“夹子攻击”(MEV)和优化低滑点交易路径上的策略与实现过…

    2025年12月8日 好文分享
    000

发表回复

登录后才能评论
关注微信