Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

谷歌StyleDrop一出,瞬间在网上刷屏了。

给定梵高的星空,AI化身梵高大师,对这种抽象风格顶级理解后,做出无数幅类似的画作。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

再来一张卡通风,想要绘制的物体呆萌了许多。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

甚至,它还能精准把控细节,设计出原风格的logo。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

StyleDrop的魅力在于,只需要一张图作为参考,无论多么复杂的艺术风格,都能解构再复刻。

网友纷纷表示,又是淘汰设计师的那种AI工具。

StyleDrop爆火研究便是来自谷歌研究团队最新出品。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

论文地址:https://arxiv.org/pdf/2306.00983.pdf

现在,有了StyleDrop这样的工具,不但可以更可控地绘画,还可以完成之前难以想象的精细工作,比如绘制logo。

就连英伟达科学家将其称为「现象级」成果。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

「定制」大师

论文作者介绍道,StyleDrop的灵感来源Eyedropper(吸色/取色工具)。

同样,StyleDrop同样希望大家可以快速、毫不费力地从单个/少数参考图像中「挑选」样式,以生成该样式的图像。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

一只树懒能够有18种风格:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

一只熊猫有24种风格:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

小朋友画的水彩画,StyleDrop完美把控,甚至连纸张的褶皱都还原出来了。

不得不说,太强了。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

还有StyleDrop参考不同风格对英文字母的设计:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

同样是梵高风的字母。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

还有线条画。线条画是对图像的高度抽象,对画面生成构成合理性要求非常高,过去的方法一直很难成功。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

原图中奶酪阴影的笔触还原到每种图片的物体上。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

参考安卓LOGO创作。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

此外,研究人员还拓展了StyleDrop的能力,不仅能定制风格,结合DreamBooth,还能定制内容。

比如,还是梵高风,给小柯基生成类似风格的画作:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

再来一个,下面这只柯基有种埃及金字塔上的「狮身人面像」的感觉。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

如何工作?

StyleDrop基于Muse构建,由两个关键部分组成:

一个是生成视觉Transformer的参数有效微调,另一个是带反馈的迭代训练。

之后,研究人员再从两个微调模型中合成图像。

Muse是一种基于掩码生成图像Transformer最新的文本到图像的合成模型。它包含两个用于基础图像生成(256 × 256)和超分辨率(512 × 512或1024 × 1024)的合成模块。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

每个模块都由一个文本编码器T,一个transformer G,一个采样器S,一个图像编码器E和解码器D组成。

T将文本提示t∈T映射到连续嵌入空间E。G处理文本嵌入e∈E以生成视觉token序列的对数l∈L。S通过迭代解码从对数中提取视觉token序列v∈V,该迭代解码运行几步的transformer推理,条件是文本嵌入e和从前面步骤解码的视觉token。

最后,D将离散token序列映射到像素空间I。总的来说,给定一个文本提示t,图像I的合成如下:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

图2是一个简化了的Muse transformer层的架构,它进行了部分修改,为的是支持参数高效微调(PEFT)与适配器。

使用L层的transformer处理在文本嵌入e的条件下以绿色显示的视觉token序列。学习参数θ被用于构建适配器调优的权重。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

为了训练θ,在许多情况下,研究人员可能只给出图片作为风格参考。

研究人员需要手动附加文本提示。他们提出了一个简单的、模板化的方法来构建文本提示,包括对内容的描述,后面跟着描述风格的短语。

例如,研究人员在表1中用「猫」描述一个对象,并附加「水彩画」作为风格描述。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

在文本提示中包含内容和风格的描述至关重要,因为它有助于从风格中分离出内容,这是研究人员的主要目标。

图3则是带反馈的迭代训练。

当在单一风格参考图像(橙色框)上进行训练时,StyleDrop生成的一些图像可能会展示出从风格参考图像中提取出的内容(红色框,图像背景中含有与风格图像类似的房子)。

其他图像(蓝色框)则能更好地从内容中拆分出风格。对StyleDrop进行好样本(蓝色框)的迭代训练,结果在风格和文本保真度之间取得了更好的平衡(绿色框)。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

这里研究人员还用到了两个方法:

-CLIP得分

该方法用于测量图像和文本的对齐程度。因此,它可以通过测量CLIP得分(即视觉和文本CLIP嵌入的余弦相似度)来评估生成图像的质量。

研究人员可以选择得分最高的CLIP图像。他们称这种方法为CLIP反馈的迭代训练(CF)。

在实验中,研究人员发现,使用CLIP得分来评估合成图像的质量是提高召回率(即文本保真度)的有效方式,而不会过多损失风格保真度。

然而从另一方面看,CLIP得分可能不能完全与人类的意图对齐,也无法捕捉到微妙的风格属性。

-HF

人工反馈(HF)是一种将用户意图直接注入到合成图像质量评估中的更直接的方式。

在强化学习的LLM微调中,HF已经证明了它的强大和有效。

HF可以用来补偿CLIP得分无法捕捉到微妙风格属性的问题。

目前,已有大量研究关注了文本到图像的扩散模型的个性化问题,以合成包含多种个人风格的图像。

研究人员展示了如何以简单的方式将DreamBooth和StyleDrop结合起来,从而使风格和内容都能实现个性化。

这是通过从两个修改后的生成分布中采样来完成的,分别由风格的θs和内容的θc指导,分别是在风格和内容参考图像上独立训练的适配器参数。

与现有的成品不同,该团队的方法不需要在多个概念上对可学习的参数进行联合训练,这就带来了更大的组合能力,因为预训练的适配器是分别在单个主题和风格上进行训练的。

研究人员的整体采样过程遵循等式(1)的迭代解码,每个解码步骤中采样对数的方式有所不同。

设t为文本提示,c为无风格描述符的文本提示,在步骤k计算对数如下:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

其中:γ用于平衡StyleDrop和DreamBooth——如果γ为0,我们得到StyleDrop,如果为1,我们得到DreamBooth。

通过合理设置γ,我们就可以得到合适的图像。

实验设置

目前为止,还没有对文本-图像生成模型的风格调整进行广泛的研究。

因此,研究人员提出了一个全新实验方案:

-数据收集

研究者收集了几十张不同风格的图片,从水彩和油画,平面插图,3D渲到不同材质的雕塑。

-模型配置

研究人员使用适配器调优基于Muse的StyleDrop 。对于所有实验,使用Adam优化器更新1000步的适配器权重,学习速率为0.00003。除非另有说明,研究人员使用StyleDrop来表示第二轮模型,该模型在10多个带有人工反馈的合成图像上进行训练。

-评估

研究报告的定量评估基于CLIP,衡量风格一致性和文本对齐。此外,研究人员进行了用户偏好研究,以评估风格一致性和文本对齐。

如图,研究人员收集的18个不同风格的图片,StyleDrop处理的结果。

可以看到,StyleDrop能够捕捉各种样式的纹理、阴影和结构的细微差别,能够比以前更好地控制风格。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

为了进行比较,研究人员还介绍了DreamBooth在Imagen上的结果,DreamBooth在Stable Diffusion上的LoRA实现和文本反演的结果。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

具体结果如表所示,图像-文本对齐(Text)和视觉风格对齐(Style)的人类评分(上)和CLIP评分(下)的评价指标。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

(a) DreamBooth,(b) StyleDrop,和 (c) DreamBooth + StyleDrop的定性比较:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

这里,研究人员应用了上面提到的CLIP分数的两个指标——文本和风格得分。

对于文本得分,研究人员测量图像和文本嵌入之间的余弦相似度。对于风格得分,研究人员测量风格参考和合成图像嵌入之间的余弦相似度。

研究人员为190个文本提示生成总共1520个图像。虽然研究人员希望最终得分能高一些,但其实这些指标并不完美。

而迭代训练(IT)提高了文本得分,这符合研究人员的目标。

然而,作为权衡,它们在第一轮模型上的风格得分有所降低,因为它们是在合成图像上训练的,风格可能因选择偏见而偏移。

Imagen上的DreamBooth在风格得分上不及StyleDrop(HF的0.644对比0.694)。

研究人员注意到,Imagen上的DreamBooth的风格得分增加并不明显(0.569 → 0.644),而Muse上的StyleDrop的增加更加明显(0.556 →0.694)。

研究人员分析,Muse上的风格微调比Imagen上的更有效。

另外,在细粒度控制上, StyleDrop捕捉微妙的风格差异,如颜色偏移,层次,或锐角的把控。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

网友热评

要是设计师有了StyleDrop,10倍速工作效率,已经起飞。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

AI一天,人间10年,AIGC正在以光速发展,那种晃瞎人眼的光速!

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

工具只是顺应了潮流,该被淘汰的已经早被淘汰了。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

对于制作Logo来说这个工具比Midjourney好用得多。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

以上就是Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/532477.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
京东快递单号查询入口免费 京东快递在线查询免费
上一篇 2025年11月9日 11:19:29
idea怎么运行两个项目
下一篇 2025年11月9日 11:19:32

相关推荐

  • CEX充提币:中心化交易所使用技巧

    在加密货币交易的浩瀚宇宙中,选择一家可靠、高效且安全便捷的中心化交易所(cex)是每位投资者迈向成功的关键一步。尤其对于初入加密世界的新手而言,cex不仅是进入市场的大门,更是其资产的守护者。而对于经验丰富的交易者来说,深入掌握cex的充提币技巧,则意味着能够更灵活地调配资金,抓住稍纵即逝的市场机遇…

    用户投稿 2026年5月10日
    100
  • 欧易交易所 OKX全球主流交易平台(官方网站)

    欧易(OKX)是一款全球领先的数字资产服务平台,为用户提供币币、杠杆、期权/交割/永续合约、DEX交易、余币宝、DeFi挖 矿、借贷等多元化的产品矩阵,覆盖超过200个国家和地区,拥有千万级用户量,致力于为全球用户提供一站式的数字资产服务。 欧易交易所官方网站入口 欧易全球官方网址是: 欧易OKX下…

    2026年5月10日
    000
  • HTML地理位置怎么优化_本地SEO代码优化技巧

    HTML地理位置优化需使用Schema.org标记并确保信息一致,结合关键词、地图嵌入和本地内容提升本地搜索排名。 HTML地理位置优化,简单来说,就是让你的网站在本地搜索结果中更容易被找到。核心在于告诉搜索引擎你的网站与特定地理位置相关,并提升用户体验。 解决方案 使用Schema.org标记: …

    2026年5月10日
    200
  • 欧易官方iOS版下载_苹果手机欧易APP官方入口

    欧易官方iOS版下载_苹果手机欧易APP官方入口欧易官方iOS版下载_苹果手机欧易APP官方入口欧易官方iOS版下载_苹果手机欧易APP官方入口欧易官方iOS版下载_苹果手机欧易APP官方入口

    想要进入数字资产的世界,选择一个安全可靠的平台至关重要。本文将作为您的向导,详细拆解欧易(okx)交易所从入门到上手的全部流程,包括官方渠道访问、app安全下载安装,以及新用户注册的每一步。跟随本指南,轻松开启您的交易之旅。 第一步:访问欧易OKX官方网站 欧易官方网址: 欧易官方app: 1、请通…

    2026年5月10日 用户投稿
    000
  • 币安Binance正版官网地址 币安Binance安全登录官网

    如果你想访问币安Binance正版官网并进行安全登录,那么掌握正确的网址和安全操作方法非常关键。本文将为你详细介绍如何访问官方平台,以及在登录过程中需要注意的安全细节,帮助你更安心地管理加密货币资产。 官网入口: APP下载: 官网访问方法 1、确认网址:在访问币安Binance官网时,一定要输入官…

    2026年5月10日
    100
  • 2025欧意交易所app官方下载 欧意 v6.138.1 最新版app安卓版

    欧意交易所App是一款广受欢迎的数字资产交易平台,致力于为全球用户提供安全、便捷、专业的加密货币交易服务。平台支持多种主流数字货币的交易,界面友好,功能强大,是您管理和增值数字资产的理想选择。 欧易官网入口: 欧易官网直链下载: 下载步骤 1、点击上方提供的官方下载链接,浏览器将自动开始下载欧意交易…

    2026年5月10日
    000
  • 币安binanceapp官方下载安装 币安2025安卓最新版本入口地址

    币安binanceapp官方下载安装 币安2025安卓最新版本入口地址币安binanceapp官方下载安装 币安2025安卓最新版本入口地址币安binanceapp官方下载安装 币安2025安卓最新版本入口地址币安binanceapp官方下载安装 币安2025安卓最新版本入口地址

    币安(Binance)是全球领先的数字资产交易平台之一,为用户提供安全、稳定、便捷的数字货币交易服务。它支持多种主流及新兴的数字资产,并提供丰富的交易工具和功能。 本文将为您提供币安2025安卓最新版本的官方下载入口,您只需点击文中给出的下载链接,即可获取官方正版app安装包,开启您的数字资产之旅。…

    2026年5月10日 用户投稿
    000
  • 谷歌搜索的鼠标悬停阴影效果是如何实现的?

    谷歌搜索悬停阴影效果解析 在谷歌搜索页面中,当鼠标悬停在搜索框或按钮上时,会出现一个微妙的边缘阴影。想要了解这一效果的实现原理,许多开发者可能率先想到使用 css。 css 探索 遗憾的是,在 css 代码中无法找到与阴影效果直接相关的属性或值。继续探索其他实现方法。 浏览器开发者工具助力 使用浏览…

    2025年12月24日
    000
  • 如何用 CSS 实现谷歌搜索框鼠标悬停时的边缘阴影效果?

    谷歌搜索框鼠标悬停时边缘阴影效果实现 对于谷歌搜索框在鼠标悬停时的边缘阴影效果,你可能找不到直接的 css 代码,但这种效果可以通过 box-shadow 属性实现。 box-shadow 可以创建箱子周围的阴影效果,它的语法如下: box-shadow: h-offset v-offset blu…

    2025年12月24日
    800
  • 如何实现谷歌搜索框鼠标悬停时的边缘阴影效果?

    如何实现谷歌搜索框鼠标悬停时的边缘阴影效果? 在谷歌搜索中,当鼠标悬停在搜索框和按钮上时,会产生一种精致的边缘阴影效果。实现这一效果需要使用 css 的 box-shadow 属性。 box-shadow 属性 box-shadow 属性允许在元素周围创建阴影效果。其语法为: box-shadow:…

    2025年12月24日
    600
  • 鼠标悬停时,谷歌搜索元素的阴影效果是如何实现的?

    鼠标悬停时突出显示谷歌搜索元素的阴影效果是如何实现的 该效果是通过 css 的 box-shadow 属性实现的,该属性用于在元素周围创建阴影效果。 当鼠标悬停在元素上时,应用 :hover 伪类,并添加 box-shadow 属性,为元素指定阴影效果。 下面是一个示例 css 代码,它给谷歌搜索框…

    2025年12月24日
    500
  • CSS 砌体 Catness

    css 就像技术中的其他东西一样 – 它总是在变化和发展。该领域正在进行的开发是 css 网格布局模块级别 3,也称为 css masonry 布局。 theo 制作了一段视频,介绍了它的开发方式以及苹果和谷歌就如何实施它进行的辩论。 所有这些让我很高兴尝试 css 砌体! webkit…

    用户投稿 2025年12月24日
    000
  • 谷歌浏览器重命名文件后缩进消失,火狐浏览器却不会,这是为什么?

    谷歌浏览器重命名文件后缩进消失,而火狐浏览器不会 在谷歌浏览器中使用 WEB IDE 时遇到一个奇怪的问题。当重命名目录树中的文件后,目录树左侧的缩进消失了。但是,在开发者工具中发现导致缩进消失的其实是设置了 margin-right: -17px,而不是正常的 margin-left: -17px…

    2025年12月24日
    000
  • 为什么重命名文件后,谷歌浏览器和火狐浏览器的目录树缩进表现不同?

    为什么在重命名文件后,谷歌浏览器和火狐浏览器的目录树表现不同? 一位开发者遇到了一个令人迷惑的问题:在谷歌浏览器中的 WEB IDE 中重命名文件时,目录树中的缩进会消失。经过检查,开发者发现目录树元素有一个 margin-right:-17px 样式,这与预期中 margin-left:-17px…

    2025年12月24日
    500
  • 谷歌浏览器和火狐浏览器在重命名文件时,为何表现出不同的缩进差异?

    浏览器在重命名文件时表现差异的原因 当你使用谷歌浏览器中的 WEB IDE 重命名文件时,你遇到的问题是:整个目录树向左移动,缩进消失。同时,你发现该元素设置了 margin-right: -17px,但它应该设置为 margin-left: -17px。 这个问题的原因是因为谷歌浏览器在处理 CS…

    2025年12月24日
    700
  • 谷歌浏览器目录树缩进消失:是 Bug 还是配置问题?

    浏览器中的目录树缩进差异 问题: 在谷歌浏览器使用 WEB IDE 时,重命名文件会消除目录树的缩进,但火狐浏览器没有这个问题。这是谷歌的 Bug 吗? 答案: 不是谷歌的 Bug。 解释: 在 Google 浏览器中,浏览器错误地将 margin-right:-17px 应用于目录树元素,而不是 …

    2025年12月24日
    000
  • 谷歌如何使用html5_谷歌浏览器HTML5使用与支持设置技巧【详解】

    Chrome中HTML5问题需通过五步解决:一、更新至v132+确保基础支持;二、在chrome://flags启用WebGPU等实验功能;三、用chrome://gpu、chrome://media-internals及Console命令验证硬件加速与API就绪;四、在网站设置中授权相机、位置等权…

    2025年12月23日
    000
  • 谷歌浏览器怎么运行html_谷歌浏览器运行html方法【教程】

    可通过拖拽HTML文件至谷歌浏览器窗口直接预览;2. 也可通过浏览器菜单选择“打开文件”加载本地文档;3. 还能手动在地址栏输入file:///加文件路径访问;4. 最后可创建桌面快捷方式实现快速启动,四种方法均有效运行HTML文件。 如果您编写了一个HTML文件,想要在浏览器中查看其实际效果,谷歌…

    2025年12月23日
    000
  • 谷歌怎么运行html_谷歌运行html步骤【指南】

    谷歌浏览器通过打开本地文件来渲染HTML页面。首先创建并保存.html格式的HTML文件,如index.html;然后将其保存至易访问位置,确保扩展名正确;接着可通过拖拽文件到Chrome窗口、右键选择“用Google Chrome打开”或在浏览器中通过“打开文件”功能加载页面;最后利用右键“检查”…

    2025年12月23日
    000
  • 怎么把html运行在谷歌上_谷歌运行html文件方法【教程】

    可通过拖拽HTML文件至谷歌浏览器窗口直接预览;2. 使用浏览器菜单中的“打开文件”功能选择并加载本地HTML文件;3. 在地址栏输入file:///加文件完整路径手动运行;4. 利用VS Code等编辑器配合Live Server插件实现自动刷新实时预览。 如果您想在谷歌浏览器中查看或测试一个HT…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信