controlnet_第4页

PAI x EasyPhoto, 告别愚人节，创造节日氛围AI写真

X Studio 网易云音乐·X Studio 91 查看详情活动地址：https://developer.aliyun.com/topic/aigc_pai/newyear 教程简述生成式AI技术批量产出真/像/美的个人写真应用非常受欢迎。近期上线的EasyPhoto 作为一款开源的 SD W…

程序猿

2025年11月7日 • 用户投稿

0000

北大出品：纹理质量和多视角一致性的最新SOTA，在2分钟内实现1张图的3D转换

只需两分钟，玩转图片转3d！还是高纹理质量、多视角高一致性的那种。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 不管是什么物种，输入时的单视图图像还是这样婶儿的：两分钟后，3D版大功告成： △上，Repaint123（NeRF）；下，…

程序猿

2025年11月7日 • 用户投稿

0000

华科阿里等企业合作开发的TF-T2V技术降低了AI视频生产的成本！

近两年来，随着大规模图文数据集如LAION-5B的开放，图片生成领域涌现出了一系列效果惊人的方法，如Stable Diffusion、DALL-E 2、ControlNet和Composer。这些方法的出现使得图片生成领域取得了巨大的突破和进展。图片生成领域可谓在过去短短两年内取得了飞速发展。然而…

程序猿

2025年11月7日 • 用户投稿

1000

SD社区的I2V-Adapter：无需配置，即插即用，完美兼容图生视频插件

图像到视频生成（I2V）任务是计算机视觉领域的一项挑战，旨在将静态图像转化为动态视频。这个任务的难点在于从单张图像中提取并生成时间维度的动态信息，同时保持图像内容的真实性和视觉上的连贯性。现有的I2V方法通常需要复杂的模型架构和大量的训练数据来实现这一目标。近期，快手主导的一项新研究成果《I2V-…

程序猿

2025年11月7日 • 用户投稿

1000

生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

硬件要求越来越低，生成速度越来越快。 stability ai 作为文本到图像的先驱，不仅引领潮流，也不断在模型质量上取得新突破。这次，它实现了性价比的突破。就在前几天，Stability AI 又有新动作了：Stable Cascade 的研究预览版被推出。这款文本到图像模型进行了创新，它引入了…

程序猿

2025年11月7日 • 用户投稿

1000

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

原标题：towards realistic scene generation with lidar diffusion models 论文链接：https://hancyran.github.io/assets/paper/lidar_diffusion.pdf 代码链接：https://lidar…

程序猿

2025年11月7日 • 用户投稿

0000

NeurIPS 2024｜浙大 & 微信 & 清华：彻底解决扩散模型反演问题

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢…

程序猿

2025年11月6日 • 用户投稿

1000

用户投稿

HYPIR— 中国科学院团队推出的图像复原大模型

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ HYPIR（Harnessing Diffusion-Yielded Score Priors for Image Restoration）是由中国科学院深圳先进技术研究院数字所董超研究员团队研…

程序猿

2025年11月6日

0000

deepseek图像生成怎么用 deepseek图生图功能全指南

deepseek图生图功能通过参考图片与文字提示结合生成新图像。①进入图像生成界面并上传参考图；②输入描述新图像元素、风格等内容的正向提示词；③调整图生图强度参数控制生成图像与原图的差异程度；④设置反向提示词避免低质量或变形问题；⑤若支持controlnet，可精确控制姿态、边缘等结构信息；⑥点击生…

程序猿

2025年11月6日 • 用户投稿

1000

RepText— Liblib AI联合Shakker Labs推出的多语言视觉文本渲染框架

reptext是由shakker labs和liblib ai开发的多语言视觉文本渲染框架，通过复制字形而非理解文本内容来实现高质量的文本渲染。该框架利用预训练的单语言文本到图像生成模型，结合controlnet结构、canny边缘检测、位置信息以及字形潜变量复制技术，能够精确地渲染用户指定字体和位…

程序猿

2025年11月4日 • 用户投稿

1000