不做文盲画家!谷歌魔改「文本编码器」:一个小操作让图像生成模型学会「拼写」

过去的一年里,随着DALL-E 2,Stable Diffusion等图像生成模型的发布,text-to-image模型生成的图像在分辨率、质量、文本忠实度等方面都得到了飞跃性提升,极大促进了下游应用场景的开发,人人都成了AI画家。

但相关研究表明,目前的生成模型技术仍然存在一个重大缺陷:无法在图像中呈现出可靠的视觉文本。

有研究结果表明,DALL-E 2在图片中生成连贯文本字符上非常不稳定,而最新发布的Stable Diffusion模型则是直接将「无法呈现可读的文本」列为已知的限制。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

字符拼写错误:(1) California: All Dreams Welcome, (2) Canada: For Glowing Hearts, (3) Colorado: It’s Our Nature, (4) St. Louis: All Within Reach.

最近Google Research发布了一篇新论文,试图了解并提高图像生成模型渲染高质量视觉文本的能力。

图片

论文链接:https://arxiv.org/abs/2212.10562

文心大模型 文心大模型

百度飞桨-文心大模型 ERNIE 3.0 文本理解与创作

文心大模型 56 查看详情 文心大模型

研究人员认为当下的text-to-image生成模型模型存在文本渲染缺陷的主要原因是缺乏字符级的输入特征。

为了量化该输入特征在模型生成中的影响,文章中设计了一系列控制实验对是否包含文本输入特征的文本编码器(character-aware和character-blind)进行对比。

研究人员发现,在纯文本领域,character-aware模型在一个新的拼写任务(WikiSpell)上获得了很大的性能收益。

将该经验迁移到视觉领域后,研究人员训练了一套图像生成模型。实验结果表明character-aware模型在一系列新的文本渲染任务(DrawText基准)中比character-blind更胜一筹。

并且character-aware模型在视觉拼写方面达到了更高的技术水平,尽管训练的样例数量少得多,其在不常见的单词上的准确率仍然比竞争模型高出30多个百分点。

Character-Aware模型

语言模型可分为直接访问构成其文本输入字符的character-aware模型和无法访问的character-blind模型。

许多早期的神经语言模型直接在字符上进行操作,而不使用多字符的token作为标记。

后来的模型逐渐转向基于词汇表的tokenization,其中一些模型如ELMo仍然保留了character-aware,但其他模型如BERT则放弃了字符特征以支持更有效的预训练。

目前,大多数广泛使用的语言模型是character-blind的,依靠数据驱动的子词(subword)分割算法,如字节对编码(BPE)来生成子词pieces作为词汇表。

虽然这些方法对于不常见的序列可以退回到字符级表示,但它们在设计上仍然会将常见的字符序列压缩成不可分割的单元。

这篇论文的主要目的是试图了解并提高图像生成模型渲染高质量视觉文本的能力。

为此,研究人员首先孤立地研究了当下文本编码器的拼写能力,从实验结果可以发现,尽管character-blind文本编码器很受欢迎,但它们没有收到关于其输入的字符级构成的直接信号,导致其拼写能力有限。

图片

研究人员还测试了不同规模、架构、输入表示、语言和调整方法的文本编码器的拼写能力。

这篇论文首次记录了character-blind模型通过网络预训练诱导出强大的拼写知识(准确率>99%)的神奇能力,但实验结果表明这项能力在英语之外的语言中并没有得到很好的泛化,而且只有在超过100B参数的规模下才能实现,所以对于大多数应用场景是不可行的。

另一方面,character-aware的文本编码器能够在更小的尺度上实现强大的拼写能力。

在将这些发现应用于图像生成场景时,研究人员训练了一系列character-aware的文本到图像的模型,并证明它们在现有的和新的文本渲染的评估中明显优于字符盲目的模型。

但对于纯字符级模型来说,虽然文本渲染的性能提升了,但对于不涉及视觉文本的prompt,图像-文本对齐度则会下降。

为了缓解这一问题,研究人员建议将字符级和token级的输入表征结合起来,从而可以实现最佳的性能。

WikiSpell基准

由于文本到图像的生成模型依赖于文本编码器来产生用于解码的表征,研究人员首先从Wiktionary中采样一些单词创建了WikiSpell基准,然后基于此数据集在一个纯文本的拼写评估任务来探索文本编码器的能力。

图片

对于WikiSpell中的每个样例,模型的输入是一个单词,预期的输出是它的具体拼写(通过在每个Unicode字符之间插入空格来生成)。

图片

由于该文章仅对研究一个词的频率和模型的拼写能力之间的关系感兴趣,所以研究人员根据单词在mC4语料库中出现的频率,将Wiktionary中的词分成五个互不重叠的桶:最频繁的前1%的词,最频繁的1-10%的词,10-20%的词,20-30%的词,以及最低的50%的词(包括在语料库中从未出现过的词)。

然后从每个桶中均匀地抽取1000个词来创建一个测试集(以及一个类似的开发集)。

最后通过结合两部分建立了一个由10,000个词组成的训练集:5,000个从最底层的50%桶(最不常见的词)中统一取样,另外5,000个根据它们在mC4中的频率按比例取样(从而使这一半的训练集偏向频繁的词)。

研究人员将任何被选入开发集或测试集的词排除在训练集之外,因此评估结果总是针对被排除的词。

除了英语外,研究人员还对其他六种语言(阿拉伯语、汉语、芬兰语、韩语、俄语、泰语)进行评估,选择这些语言是为了涵盖影响模型学习拼写能力的各种特性,对每一种语言的评估都重复上述数据集构建过程。

文本生成实验

研究人员使用WikiSpell基准来评估多种预训练的纯文本模型在不同规模上的表现,包括T5(一个在英语数据上预训练的character-blind编码解码器模型);mT5(与T5类似,但在超过100种语言上预训练);ByT5(mT5的character-aware版本,直接在UTF-8字节序列上操作);以及PaLM(一个规模更大的解码模型,主要是在英语上预训练的)。

图片

在纯英语和多语言的实验结果中,可以发现character-blind模型T5和mT5在包含Top-1%最频繁词汇的桶上的表现要差很多。

这个结果似乎是反直觉的,因为模型通常在数据中频繁出现的例子上表现最好,但是由于subword词汇的训练方式,频繁出现的词通常被表示为一个单一的原子标记(或少量的标记),事实上也是如此:在英语前1%的桶中,87%的词被T5的词汇表示为一个子词标记。

因此,较低的拼写准确性分数表明,T5的编码器没有保留足够的关于其词汇中subword的拼写信息。

其次,对于character-blind模型,规模是影响拼写能力的一个重要因素。T5和mT5都随着规模的增加而逐渐变好,但即使在XXL规模下,这些模型也没有表现出特别强的拼写能力。

只有当character-blind模型达到PaLM的规模时,才开始看到近乎完美的拼写能力:540B参数的PaLM模型在英语的所有频率桶中都达到了>99%的准确率,尽管它在提示中只看到20个例子(而T5显示的是1000个微调例子)。

图片

然而,PaLM在其他语言上的表现较差,可能是由于这些语言的预训练数据少得多。

对ByT5的实验表明,character-aware模型表现出更强大的拼写能力。ByT5在Base和Large尺寸下的表现仅略微落后于XL和XXL(尽管仍然至少在90%的范围内),而且一个词的频率似乎对ByT5的拼写能力没有太大影响。

ByT5的拼写性能远远超过了(m)T5的结果,甚至与参数多于100倍的PaLM的英语表现相当,并且超过了PaLM在其他语言上的表现。

从而可知ByT5编码器保留了相当多的字符级信息,而且这些信息可以根据解码任务的需要从这些冻结的参数中检索出来。

DrawText基准

从2014年发布的COCO数据集到2022年的DrawBench基准,从FID, CLIP得分到人类偏好等指标,如何评估text-to-image模型一直是一个重要的研究课题。

但目前在文本渲染和拼写评估方面一直缺乏相关工作。

为此,研究人员提出了一个新的基准DrawText,旨在全面衡量文本到图像模型的文本渲染质量。

DrawText基准由两部分组成,分别测量模型能力的不同维度:

1)DrawText Spell,通过大量的英语单词集合的普通单词渲染进行评估;

研究人员从英语WikiSpell频率桶中各抽取100个单词,并将它们插入一个标准模板中,总共构建了500个提示。

对于每个prompt,从候选模型中抽取4张图片,并使用人类评分和基于光学字符识别(OCR)的指标对其进行评估。

2)DrawText Creative,通过视觉效果的文本渲染进行评估。

视觉文本并不局限于像街道标志那样的常见场景,文字可以以多种形式出现,如潦草的、绘画的、雕刻的、雕塑的,等等。

如果图像生成模型支持灵活而准确的文本渲染,这将使设计师能够使用这些模型来开发创造性的字体、标志、布局等等。

为了测试图像生成模型支持这些用例的能力,研究人员与一位专业的图形设计师合作,构建了175个不同的提示,要求在一系列创造性的风格和设置中渲染文本。

图片

许多提示超出了当前模型的能力,最先进的模型会表现出拼写错误、丢弃或重复的单词。

图像生成实验

实验结果显示,用于对比的9个图像生成模型中在DrawText Spell基准上的准确率中,character-aware模型(ByT5和Concat)无论模型尺寸大小都优于其他模型,特别是在不常见单词上。

图片

Imagen-AR显示了避免cropping的好处,尽管训练时间长了6.6倍,其仍然比字character-aware模型表现差。

模型之间的另一个明显的区别在于它们是否在多个样本中持续地拼错一个给定的单词。

图片

在实验结果中可以看出,无论抽取多少个样本,T5模型都有很多单词拼错,研究人员认为这表明文本编码器中缺少字符知识。

相比之下,ByT5模型基本只会出现零星的错误。

图片

通过测量模型在所有四个图像样本中持续正确(4/4)或持续错误(0/4)的比率可以量化这一观察结果。

图片

可以看到一个鲜明的对比,特别是在常见的词上(前1%),即ByT5模型从未持续错误,而T5模型在10%或更多的词上持续错误。

以上就是不做文盲画家!谷歌魔改「文本编码器」:一个小操作让图像生成模型学会「拼写」的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/559398.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月10日 00:18:51
下一篇 2025年11月10日 00:20:47

相关推荐

  • 币安交易所app专业交易 币安binance官网最新版功能介绍

    币安App不仅仅是一个简单的交易平台,它更像是一位经验丰富的交易助手,为你提供全方位的支持。从实时行情到深度分析,从便捷交易到安全保障,币安App力求满足你所有的交易需求。它拥有简洁直观的用户界面,即使是新手也能快速上手。同时,它也提供了强大的专业功能,满足资深交易者的进阶需求。那么,币安App究竟…

    2025年12月8日 好文分享
    000
  • OKX官网APP最新版本 OKX全球交易平台入口 v6.125.3

    okx (欧易) 作为全球领先的数字资产交易平台,一直致力于为用户提供安全、稳定、便捷的交易体验。为了方便用户随时随地进行交易和管理数字资产,okx推出了官方app。本文将为您提供最新版本okx app (v6.125.3) 的下载安装教程,让您轻松进入okx全球交易平台。请注意,本文提供的是官方a…

    2025年12月8日
    000
  • 如何在币安官网获取App 币安交易平台App的官方安装渠道有哪些

    币安作为全球领先的加密货币交易平台,其App为用户提供了便捷的数字资产交易体验。为了确保您下载到的是官方正版App,避免遭遇钓鱼软件或恶意应用,我们特此提供详细的官方App下载安装教程。本教程提供的链接均为币安官方渠道,您可以安心使用,享受安全可靠的交易服务。请务必按照以下步骤操作,以确保成功安装并…

    2025年12月8日
    000
  • 火币网页版入口 火币官网进入

    火币网页版入口可通过四种方式进入:1. 直接在浏览器输入www.htx.com访问;2. 通过搜索引擎搜索“火币官网”并确认官方认证标志;3. 使用火币官方App内的网页版入口跳转;4. 通过可信赖的数字货币资讯平台获取链接。进入后如遇问题可采取以下解决方法:1. 网页加载缓慢可尝试刷新页面或更换网…

    2025年12月8日
    000
  • 欧意官网进入 欧意在线入口(最新)

    要安全进入欧意官网并进行交易,需通过正确方式访问并验证网站真伪。1.直接输入网址okx.com或通过搜索引擎查找官网;2.检查网址是否为okx.com,查看SSL证书、网站内容及是否有过多广告;3.避免点击不明链接以防钓鱼;4.注册账号后完成实名认证、充值并开始交易;5.提现时核对地址并加强账户安全…

    2025年12月8日
    000
  • OKX欧意交易所中文版APP极速登录入口

    OKX欧易交易所中文版APP,作为全球领先的数字资产交易平台,以其安全性、稳定性和用户友好性而闻名。它为用户提供包括币币交易、杠杆交易、合约交易、期权交易等多种交易方式,满足不同投资者的需求。更重要的是,OKX欧易始终将用户资产安全放在首位,采用多重安全措施,确保用户的资金安全。 OKX欧易交易所官…

    2025年12月8日
    000
  • 欧意在线入口 欧意app下载安卓版

    要找到欧意的官方在线入口,请核对SSL证书、通过官方社交媒体或合作伙伴获取链接,并避免点击广告或陌生人发送的链接;下载安卓版App时,需通过官网下载并按步骤操作;遇到安装问题可检查网络、存储空间及系统版本等;使用App时应设置强密码、开启2FA、保护私钥并警惕钓鱼信息。 在风起云涌的数字资产浪潮中,…

    2025年12月8日
    000
  • 必安交易所安卓版下载 必安app下载教程

    选择币安App安卓版因其安全稳定、支持多币种交易、界面简洁易用、实时行情推送及多语言支持。下载可通过官网或第三方应用市场,官网下载需确认网址真实性,找到下载入口并选择安卓版本;第三方市场下载则打开应用商店搜索“币安”后安装。安装时若提示被阻止需开启“未知来源”权限。常见问题如解析失败可重新下载文件、…

    2025年12月8日
    000
  • 易欧OKX最新安卓版 v6.124.0 2025OK官方交易所APP

    易欧okx作为全球领先的数字资产交易平台,凭借其强大的技术实力、丰富的交易品种和卓越的用户体验,赢得了广大用户的青睐。为了方便用户随时随地进行交易,易欧okx推出了安卓版app。本教程将详细介绍如何下载和安装易欧okx最新安卓版 v6.124.0 2025ok官方交易所app,让您轻松开启数字资产交…

    2025年12月8日
    000
  • OK易欧交易平台官网登录入口 OK易欧数字货币交易平台官网

    ok易欧(okx)作为全球领先的数字货币交易平台,为用户提供安全、便捷的数字资产交易服务。对于想要进入数字货币世界的投资者来说,掌握ok易欧的官网登录入口至关重要。本文将详细介绍ok易欧官网登录入口,并深入了解ok易欧平台,助您开启数字货币交易之旅。 OK易欧官网登录入口:安全便捷的通道 为了确保您…

    2025年12月8日
    000
  • 币圈常用的交易所推荐 好用的交易所是哪些

    在加密货币交易中,选择可靠的交易所至关重要。1. Binance是全球最大的交易所之一,支持海量交易对,交易深度高且提供丰富工具;2. OKX提供全面服务,系统稳定并重视合规发展;3. 火币在中文用户中知名度高,支持主流币种且社区活跃。此外,交易时需注意保管账户信息、开启双重认证、防范钓鱼网站、了解…

    2025年12月8日
    000
  • 火币huobi交易所官网登陆入口

    要安全登录火币Huobi交易所,首先必须通过搜索引擎认证标识、官方社交媒体平台或信任的第三方平台找到官网。1.使用带有官方认证标识的搜索引擎结果;2.关注火币Huobi官方社交媒体账号获取链接;3.从可信第三方平台获取链接。 如何找到火币huobi交易所的官方网站登陆入口? 火币官网直达: 找到火币…

    2025年12月8日
    000
  • 币安Binance交易所官网登陆入口 币安Binance官方网站链接

    如何登陆币安交易所?答案如下:1.访问官方网站;2.点击“登录”按钮;3.输入账户信息;4.进行安全验证;5.成功登录。币安作为全球领先的加密货币交易平台,不仅提供便捷、高效、安全的交易服务,还构建了涵盖Launchpad、Earn、NFT市场、慈善及学院等在内的完整区块链生态系统,并以安全性高、流…

    2025年12月8日
    000
  • 币安binance交易所最新版 币安官网app入口

    币安(binance)作为全球领先的加密货币交易所,为用户提供安全、便捷的数字资产交易服务。为了方便用户随时随地进行交易,币安推出了官方app,功能全面,操作流畅。本文将为您提供币安binance交易所最新版app的官方下载链接,并详细介绍下载安装步骤,让您轻松开启数字货币交易之旅。通过官方app,…

    2025年12月8日
    000
  • 币安在哪里下载? 币安如何下载

    目录 官方下载渠道安卓手机下载方法iOS(iPhone/iPad)下载方法如何在币安App注册账户?币安app注册方法币安安全设置如何注册海外appleid海外Apple ID的用处使用海外ID注意事项​注册需准备材料:注册台湾或中国台湾苹果账号教程 通过修改appleid地区的方法 币安(bina…

    2025年12月8日 好文分享
    000
  • 安币交易平台官网网址 安币官网网页版登录入口

    安币交易平台,作为全球领先的数字资产交易平台之一,致力于为用户提供安全、稳定、便捷的数字资产交易服务。平台汇集了来自全球各地的数字资产爱好者和投资者,提供包括比特币(btc)、以太坊(eth)、莱特币(ltc)等多种主流数字货币的交易服务,以及新兴的优质数字资产。 安币平台凭借其先进的技术架构、严格…

    2025年12月8日
    000
  • 如何在欧易平台获取官方App 欧易交易软件的正规安装途径

    欧易(OKX)作为全球领先的数字资产交易平台,其官方App是用户进行交易、查看行情、管理资产的重要工具。为了保障您的资金安全和交易体验,务必通过官方渠道下载安装欧易App。本文将为您提供欧易官方App的安全下载链接,并详细介绍安装步骤,助您快速上手。 通过本文提供的链接,您可以直接下载到正版、安全的…

    2025年12月8日
    000
  • OKX交易所注册官网 OKX交易所2025注册入口

    okx交易所作为全球领先的数字资产交易平台,以其安全性、流动性和多元化的交易产品而闻名。对于希望在2025年进入加密货币交易领域的新手来说,了解okx的注册流程至关重要。本文将为您提供详尽的注册指南,并深入探讨okx平台的优势,助您轻松开启数字资产之旅。 2025年OKX注册流程详解 以下是2025…

    2025年12月8日
    000
  • OKX交易所官网进入地址 OKX网页版官方登录

    okx,作为全球领先的数字资产交易平台,致力于为全球用户提供安全、稳定、高效的数字资产交易服务。无论您是经验丰富的交易员还是初入币圈的新手,okx都将是您值得信赖的选择。通过okx,您可以轻松交易各种主流加密货币,参与defi项目,探索nft市场,并享受专业的金融服务。okx不仅仅是一个交易平台,更…

    2025年12月8日
    000
  • 币安Binance官网登陆最新地址 币安Binance交易所官方网站

    要获取币安官网最新登陆地址,请通过官方渠道访问以确保安全。1. 访问指定链接:2. 将该链接添加至浏览器收藏夹以便快速登录。注册账户步骤包括:下载币安App、点击“下载”按钮、选择所在国家/地区、使用邮箱或手机号创建账户、设置强密码、完成KYC验证。 币安Binance官网登陆最新地址: 币安bin…

    2025年12月8日
    000

发表回复

登录后才能评论
关注微信