Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

谷歌StyleDrop一出,瞬间在网上刷屏了。

给定梵高的星空,AI化身梵高大师,对这种抽象风格顶级理解后,做出无数幅类似的画作。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

再来一张卡通风,想要绘制的物体呆萌了许多。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

甚至,它还能精准把控细节,设计出原风格的logo。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

StyleDrop的魅力在于,只需要一张图作为参考,无论多么复杂的艺术风格,都能解构再复刻。

网友纷纷表示,又是淘汰设计师的那种AI工具。

StyleDrop爆火研究便是来自谷歌研究团队最新出品。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

论文地址:https://arxiv.org/pdf/2306.00983.pdf

现在,有了StyleDrop这样的工具,不但可以更可控地绘画,还可以完成之前难以想象的精细工作,比如绘制logo。

就连英伟达科学家将其称为「现象级」成果。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

「定制」大师

论文作者介绍道,StyleDrop的灵感来源Eyedropper(吸色/取色工具)。

同样,StyleDrop同样希望大家可以快速、毫不费力地从单个/少数参考图像中「挑选」样式,以生成该样式的图像。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

一只树懒能够有18种风格:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

一只熊猫有24种风格:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

小朋友画的水彩画,StyleDrop完美把控,甚至连纸张的褶皱都还原出来了。

不得不说,太强了。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

还有StyleDrop参考不同风格对英文字母的设计:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

同样是梵高风的字母。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

还有线条画。线条画是对图像的高度抽象,对画面生成构成合理性要求非常高,过去的方法一直很难成功。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

原图中奶酪阴影的笔触还原到每种图片的物体上。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

参考安卓LOGO创作。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

此外,研究人员还拓展了StyleDrop的能力,不仅能定制风格,结合DreamBooth,还能定制内容。

比如,还是梵高风,给小柯基生成类似风格的画作:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

再来一个,下面这只柯基有种埃及金字塔上的「狮身人面像」的感觉。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

如何工作?

StyleDrop基于Muse构建,由两个关键部分组成:

一个是生成视觉Transformer的参数有效微调,另一个是带反馈的迭代训练。

之后,研究人员再从两个微调模型中合成图像。

Muse是一种基于掩码生成图像Transformer最新的文本到图像的合成模型。它包含两个用于基础图像生成(256 × 256)和超分辨率(512 × 512或1024 × 1024)的合成模块。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

每个模块都由一个文本编码器T,一个transformer G,一个采样器S,一个图像编码器E和解码器D组成。

T将文本提示t∈T映射到连续嵌入空间E。G处理文本嵌入e∈E以生成视觉token序列的对数l∈L。S通过迭代解码从对数中提取视觉token序列v∈V,该迭代解码运行几步的transformer推理,条件是文本嵌入e和从前面步骤解码的视觉token。

最后,D将离散token序列映射到像素空间I。总的来说,给定一个文本提示t,图像I的合成如下:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

图2是一个简化了的Muse transformer层的架构,它进行了部分修改,为的是支持参数高效微调(PEFT)与适配器。

使用L层的transformer处理在文本嵌入e的条件下以绿色显示的视觉token序列。学习参数θ被用于构建适配器调优的权重。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

为了训练θ,在许多情况下,研究人员可能只给出图片作为风格参考。

研究人员需要手动附加文本提示。他们提出了一个简单的、模板化的方法来构建文本提示,包括对内容的描述,后面跟着描述风格的短语。

例如,研究人员在表1中用「猫」描述一个对象,并附加「水彩画」作为风格描述。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

在文本提示中包含内容和风格的描述至关重要,因为它有助于从风格中分离出内容,这是研究人员的主要目标。

图3则是带反馈的迭代训练。

当在单一风格参考图像(橙色框)上进行训练时,StyleDrop生成的一些图像可能会展示出从风格参考图像中提取出的内容(红色框,图像背景中含有与风格图像类似的房子)。

其他图像(蓝色框)则能更好地从内容中拆分出风格。对StyleDrop进行好样本(蓝色框)的迭代训练,结果在风格和文本保真度之间取得了更好的平衡(绿色框)。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

这里研究人员还用到了两个方法:

-CLIP得分

该方法用于测量图像和文本的对齐程度。因此,它可以通过测量CLIP得分(即视觉和文本CLIP嵌入的余弦相似度)来评估生成图像的质量。

研究人员可以选择得分最高的CLIP图像。他们称这种方法为CLIP反馈的迭代训练(CF)。

在实验中,研究人员发现,使用CLIP得分来评估合成图像的质量是提高召回率(即文本保真度)的有效方式,而不会过多损失风格保真度。

然而从另一方面看,CLIP得分可能不能完全与人类的意图对齐,也无法捕捉到微妙的风格属性。

-HF

人工反馈(HF)是一种将用户意图直接注入到合成图像质量评估中的更直接的方式。

在强化学习的LLM微调中,HF已经证明了它的强大和有效。

HF可以用来补偿CLIP得分无法捕捉到微妙风格属性的问题。

目前,已有大量研究关注了文本到图像的扩散模型的个性化问题,以合成包含多种个人风格的图像。

研究人员展示了如何以简单的方式将DreamBooth和StyleDrop结合起来,从而使风格和内容都能实现个性化。

这是通过从两个修改后的生成分布中采样来完成的,分别由风格的θs和内容的θc指导,分别是在风格和内容参考图像上独立训练的适配器参数。

与现有的成品不同,该团队的方法不需要在多个概念上对可学习的参数进行联合训练,这就带来了更大的组合能力,因为预训练的适配器是分别在单个主题和风格上进行训练的。

研究人员的整体采样过程遵循等式(1)的迭代解码,每个解码步骤中采样对数的方式有所不同。

设t为文本提示,c为无风格描述符的文本提示,在步骤k计算对数如下:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

其中:γ用于平衡StyleDrop和DreamBooth——如果γ为0,我们得到StyleDrop,如果为1,我们得到DreamBooth。

通过合理设置γ,我们就可以得到合适的图像。

实验设置

目前为止,还没有对文本-图像生成模型的风格调整进行广泛的研究。

因此,研究人员提出了一个全新实验方案:

-数据收集

研究者收集了几十张不同风格的图片,从水彩和油画,平面插图,3D渲到不同材质的雕塑。

-模型配置

研究人员使用适配器调优基于Muse的StyleDrop 。对于所有实验,使用Adam优化器更新1000步的适配器权重,学习速率为0.00003。除非另有说明,研究人员使用StyleDrop来表示第二轮模型,该模型在10多个带有人工反馈的合成图像上进行训练。

-评估

研究报告的定量评估基于CLIP,衡量风格一致性和文本对齐。此外,研究人员进行了用户偏好研究,以评估风格一致性和文本对齐。

如图,研究人员收集的18个不同风格的图片,StyleDrop处理的结果。

可以看到,StyleDrop能够捕捉各种样式的纹理、阴影和结构的细微差别,能够比以前更好地控制风格。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

为了进行比较,研究人员还介绍了DreamBooth在Imagen上的结果,DreamBooth在Stable Diffusion上的LoRA实现和文本反演的结果。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

具体结果如表所示,图像-文本对齐(Text)和视觉风格对齐(Style)的人类评分(上)和CLIP评分(下)的评价指标。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

(a) DreamBooth,(b) StyleDrop,和 (c) DreamBooth + StyleDrop的定性比较:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

这里,研究人员应用了上面提到的CLIP分数的两个指标——文本和风格得分。

对于文本得分,研究人员测量图像和文本嵌入之间的余弦相似度。对于风格得分,研究人员测量风格参考和合成图像嵌入之间的余弦相似度。

研究人员为190个文本提示生成总共1520个图像。虽然研究人员希望最终得分能高一些,但其实这些指标并不完美。

而迭代训练(IT)提高了文本得分,这符合研究人员的目标。

然而,作为权衡,它们在第一轮模型上的风格得分有所降低,因为它们是在合成图像上训练的,风格可能因选择偏见而偏移。

Imagen上的DreamBooth在风格得分上不及StyleDrop(HF的0.644对比0.694)。

研究人员注意到,Imagen上的DreamBooth的风格得分增加并不明显(0.569 → 0.644),而Muse上的StyleDrop的增加更加明显(0.556 →0.694)。

研究人员分析,Muse上的风格微调比Imagen上的更有效。

另外,在细粒度控制上, StyleDrop捕捉微妙的风格差异,如颜色偏移,层次,或锐角的把控。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

网友热评

要是设计师有了StyleDrop,10倍速工作效率,已经起飞。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

AI一天,人间10年,AIGC正在以光速发展,那种晃瞎人眼的光速!

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

工具只是顺应了潮流,该被淘汰的已经早被淘汰了。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

对于制作Logo来说这个工具比Midjourney好用得多。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

以上就是Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/532477.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 11:18:58
下一篇 2025年11月9日 11:19:51

相关推荐

  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 满血旗舰折叠屏荣耀Magic V5发布,售价8999元起

    7月2日,荣耀(honor)在深圳市举行新品发布会,备受瞩目的轻薄折叠旗舰——荣耀magic v5正式登场。这款新品凭借颠覆性的制造工艺、全方位满血的旗舰配置、强大的ai智能体功能以及跨生态的深度融合,重新定义了折叠旗舰的新标准,实现八大“世界纪录”、八大满血体验、八大一语ai功能和七大ai生态布局…

    2025年12月5日 行业动态
    000
  • 为什么谷歌浏览器扩展程序无法启用?

    用户在使用谷歌浏览器时,可能会遇到某些扩展程序安装后无法启用或被自动禁用的情况,点击启用按钮也毫无反应。这一问题可能源于多种因素,包括扩展文件损坏、设置冲突或浏览器配置文件异常。本文将分析这些常见原因,并提供一系列排查步骤,帮助您解决扩展程序无法启用的问题,让您顺利使用所需的功能。 重新安装扩展程序…

    2025年12月5日
    000
  • 谷歌浏览器如何关闭后台运行进程?

    一些用户可能会发现,即使关闭了所有谷歌浏览器窗口,其进程依然在系统后台运行,这会持续占用一定的内存和处理器资源。这种情况通常是因为浏览器默认开启了后台应用运行模式,以支持通知和应用的快速启动。本文将指导您如何通过修改浏览器设置来彻底关闭后台运行进程,并介绍如何使用浏览器自带的任务管理器来处理当前运行…

    2025年12月5日
    000
  • 谷歌浏览器如何截图网页?

    当需要截取网页内容时,许多用户会选择使用系统自带的截图工具或安装第三方扩展程序。实际上,谷歌浏览器内置了一个功能强大的截图工具,它隐藏在开发者工具中,不仅可以截取当前可见区域,还能轻松实现对整个网页的滚动长截图。本文将详细介绍如何启用并使用这一原生功能,让您无需额外安装任何软件即可完成各种网页截图需…

    2025年12月5日
    000
  • 为什么谷歌浏览器总是提示“网页无响应”?

    当您在浏览网页时,谷歌浏览器弹出“网页无响应”的提示,意味着当前的标签页已经停止响应,无法进行任何操作,这无疑会中断您的工作流程。这个问题通常不是由单一原因引起的,它可能与特定网页的脚本、过多的后台活动、扩展程序冲突或浏览器缓存有关。本文将分析导致此问题的几个主要因素,并提供相应的排查和解决方法,帮…

    2025年12月5日
    000
  • 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

    meta、openai 等大模型厂商密集发力之际,谷歌也宣布了一项重磅更新—— 即日起,Gemini 聊天机器人将改由Gemini 1.5 Flash驱动。 与之前的版本相比,窗口长度提高到了 4 倍,响应速度也更快了。 按照谷歌的介绍,新版聊天机器人背后的 1.5 Flash 模型,主打的就是轻量…

    2025年12月5日 硬件教程
    000
  • 外媒吐槽谷歌发布会:炒 AI 冷饭 怀念过去纯粹的发布会

    近日,有外媒发文吐槽谷歌新机发布会,称这场活动的主角不像是手机,而是 ai。在 8 月 13 日的 made by google 活动上,谷歌似乎并不怎么提及最新的手机和硬件,反而急切地想要说服大家它的 ai 才是主角。” 我怀念过去那种纯粹的手机发布会,那时候发布的就是手机,而不是一场…

    2025年12月5日
    000
  • ai绘画软件免费排行榜 推荐十大免费ai绘画软件合集

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 笔魂AI 笔魂AI绘画-在线AI绘画、AI画图、AI设计工具软件 257 查看详情 推荐的十大免费AI绘画软件包括:1.文心一格:百度推出,支持多种风格生成。2.通义万相:阿里云打造,提供多场景…

    2025年12月5日 科技
    000
  • 苹果占 2023 年日本手机市场超一半份额 联想并列第五

    研究公司 idc 发布的最新数据显示,2023 年日本智能手机出货量为 3030 万部,较上年下降 11.6%。其中,iphone 销量下降 6.1%,android 手机销量下降 16.3%。从品牌排名来看,苹果以超过一半的市场份额遥遥领先,谷歌增长明显,联想与京瓷并列第五。 据CNMO报道,排名…

    2025年12月5日
    000
  • 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

    大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…

    2025年12月5日 硬件教程
    000
  • Android 15 测试版引入旧通知忽略功能 多设备用户爽了

    谷歌计划在 10 月 15 日为 pixel 系列推送 android 15 更新。据透露,android 15 将带来一系列新功能,而其中最受期待的是针对旧通知和重复通知的处理改进。如果你同时拥有多台 android 设备,但主要依赖其中一台作为日常使用,那么在其他设备上频繁收到已阅读或过时的通知…

    2025年12月4日
    000
  • 30亿参数与30%多语言数据:苹果AI创新难解销量困局

    近日,cnmo关注到,苹果发布了一份名为《apple intelligence foundation language models – tech report 2025》的技术白皮书,首次系统性公开其ai模型的训练架构与优化策略,全面展示了其在硬件协同设计与用户隐私保护方面的前沿探索。 然而,在这…

    2025年12月4日 行业动态
    000
  • 分析师:盈利速度“前所未见”,AI应用企业正在跃升为巨头

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AI初创企业的迅猛发展 4月14日,金融时报发布文章,指出多家利用大模型开发应用的AI初创企业,正迅速增加销售额,引发了一场将AI技术商业化的竞争。 投资者对Cursor、Perplexity、…

    2025年12月4日
    000
  • 谷歌浏览器网页图片保存后文件损坏怎么办

    先尝试重新下载图片并更换打开方式,若仍无法解决,则使用专业修复工具或从云端备份恢复。 谷歌浏览器保存的网页图片打不开、提示损坏,这通常是因为下载不完整或文件头信息丢失。别急着删,可以按以下方法一步步尝试解决。 检查并重新下载图片 最常见的情况是网络波动导致下载中断,文件不完整。 回到原网页,右键点击…

    2025年12月4日 电脑教程
    000
  • 2025年全球AI应用top20最新榜单出炉

    生成式AI与多模态应用的代表包括:1. OpenAI GPT-5通过图灵测试,支持跨模态推理,API调用量达10万亿次/月;2. DeepSeek-R1用户破百万,推理成本低,支持中文理解;3. Google Gemini Ultra与谷歌生态深度整合,市占率40%;4. MidJourney V5…

    2025年12月4日
    000
  • 为什么 StackOverflow 上的代码片段会摧毁你的项目?

    作者 | mahdhi rezvi 策划 | Tina 在 StackOverflow 上你会惊奇地发现,上面分享的一些解决常见问题的代码居然存在安全漏洞。 本文最初发布于 Mahdhi Rezvi 的个人博客,经原作者授权由 InfoQ 中文站翻译并分享。 现在,StackOverflow 已经成…

    2025年12月4日
    100
  • Agent Development Kit— 谷歌开源的 AI Agent 开发与部署框架

    agent development kit(adk)是谷歌开源的首个ai智能体开发工具包,这是一个代码优先的python工具包,旨在简化复杂ai代理的构建、评估和部署过程。adk支持多智能体架构,允许开发者构建由多个专业智能体组成的层次化应用,以实现复杂的协调和委派。该工具包提供丰富的工具生态系统,…

    2025年12月4日
    000
  • iPhone 17全系MagSafe设计图曝光 Pro版为断环样式

    随着苹果新一代旗舰机型iphone 17系列预计于2025年9月发布,最新传闻揭示了其magsafe设计的重大调整。根据外媒披露的可靠消息,iphone 17全系列机型的magsafe磁吸组件位置将整体下移,以腾出空间容纳更大的相机模组。值得注意的是,iphone 17 pro与pro max将采用…

    2025年12月4日
    100
  • Win10 Edge浏览器调整InPrivate 隐私浏览界面

    基于 Chromium 内核的新版 Microsoft Edge 浏览器,刚刚迎来了 InPrivate 隐私浏览界面的调整。现在,用户可以在中间位置看到新加入的必应搜索框。目前这项功能,已经向 Dev 和 Canary 渠道的 Insider 测试者推送。由 Reddit 网友 Leo 晒出的截图…

    2025年12月4日
    000

发表回复

登录后才能评论
关注微信