不做文盲画家！谷歌魔改「文本编码器」：一个小操作让图像生成模型学会「拼写」

程序猿 • 2025年11月10日 00:20:08 • 用户投稿 • 阅读 0

过去的一年里，随着DALL-E 2，Stable Diffusion等图像生成模型的发布，text-to-image模型生成的图像在分辨率、质量、文本忠实度等方面都得到了飞跃性提升，极大促进了下游应用场景的开发，人人都成了AI画家。

但相关研究表明，目前的生成模型技术仍然存在一个重大缺陷：无法在图像中呈现出可靠的视觉文本。

有研究结果表明，DALL-E 2在图片中生成连贯文本字符上非常不稳定，而最新发布的Stable Diffusion模型则是直接将「无法呈现可读的文本」列为已知的限制。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

字符拼写错误：(1) California: All Dreams Welcome, (2) Canada: For Glowing Hearts, (3) Colorado: It’s Our Nature, (4) St. Louis: All Within Reach.

最近Google Research发布了一篇新论文，试图了解并提高图像生成模型渲染高质量视觉文本的能力。

论文链接：https://arxiv.org/abs/2212.10562

文心大模型

百度飞桨-文心大模型 ERNIE 3.0 文本理解与创作

56 查看详情

研究人员认为当下的text-to-image生成模型模型存在文本渲染缺陷的主要原因是缺乏字符级的输入特征。

为了量化该输入特征在模型生成中的影响，文章中设计了一系列控制实验对是否包含文本输入特征的文本编码器（character-aware和character-blind）进行对比。

研究人员发现，在纯文本领域，character-aware模型在一个新的拼写任务（WikiSpell）上获得了很大的性能收益。

将该经验迁移到视觉领域后，研究人员训练了一套图像生成模型。实验结果表明character-aware模型在一系列新的文本渲染任务（DrawText基准）中比character-blind更胜一筹。

并且character-aware模型在视觉拼写方面达到了更高的技术水平，尽管训练的样例数量少得多，其在不常见的单词上的准确率仍然比竞争模型高出30多个百分点。

Character-Aware模型

语言模型可分为直接访问构成其文本输入字符的character-aware模型和无法访问的character-blind模型。

许多早期的神经语言模型直接在字符上进行操作，而不使用多字符的token作为标记。

后来的模型逐渐转向基于词汇表的tokenization，其中一些模型如ELMo仍然保留了character-aware，但其他模型如BERT则放弃了字符特征以支持更有效的预训练。

目前，大多数广泛使用的语言模型是character-blind的，依靠数据驱动的子词（subword）分割算法，如字节对编码（BPE）来生成子词pieces作为词汇表。

虽然这些方法对于不常见的序列可以退回到字符级表示，但它们在设计上仍然会将常见的字符序列压缩成不可分割的单元。

这篇论文的主要目的是试图了解并提高图像生成模型渲染高质量视觉文本的能力。

为此，研究人员首先孤立地研究了当下文本编码器的拼写能力，从实验结果可以发现，尽管character-blind文本编码器很受欢迎，但它们没有收到关于其输入的字符级构成的直接信号，导致其拼写能力有限。

研究人员还测试了不同规模、架构、输入表示、语言和调整方法的文本编码器的拼写能力。

这篇论文首次记录了character-blind模型通过网络预训练诱导出强大的拼写知识（准确率>99%）的神奇能力，但实验结果表明这项能力在英语之外的语言中并没有得到很好的泛化，而且只有在超过100B参数的规模下才能实现，所以对于大多数应用场景是不可行的。

另一方面，character-aware的文本编码器能够在更小的尺度上实现强大的拼写能力。

在将这些发现应用于图像生成场景时，研究人员训练了一系列character-aware的文本到图像的模型，并证明它们在现有的和新的文本渲染的评估中明显优于字符盲目的模型。

但对于纯字符级模型来说，虽然文本渲染的性能提升了，但对于不涉及视觉文本的prompt，图像-文本对齐度则会下降。

为了缓解这一问题，研究人员建议将字符级和token级的输入表征结合起来，从而可以实现最佳的性能。

WikiSpell基准

由于文本到图像的生成模型依赖于文本编码器来产生用于解码的表征，研究人员首先从Wiktionary中采样一些单词创建了WikiSpell基准，然后基于此数据集在一个纯文本的拼写评估任务来探索文本编码器的能力。

对于WikiSpell中的每个样例，模型的输入是一个单词，预期的输出是它的具体拼写（通过在每个Unicode字符之间插入空格来生成）。

由于该文章仅对研究一个词的频率和模型的拼写能力之间的关系感兴趣，所以研究人员根据单词在mC4语料库中出现的频率，将Wiktionary中的词分成五个互不重叠的桶：最频繁的前1%的词，最频繁的1-10%的词，10-20%的词，20-30%的词，以及最低的50%的词（包括在语料库中从未出现过的词）。

然后从每个桶中均匀地抽取1000个词来创建一个测试集（以及一个类似的开发集）。

最后通过结合两部分建立了一个由10,000个词组成的训练集：5,000个从最底层的50%桶（最不常见的词）中统一取样，另外5,000个根据它们在mC4中的频率按比例取样（从而使这一半的训练集偏向频繁的词）。

研究人员将任何被选入开发集或测试集的词排除在训练集之外，因此评估结果总是针对被排除的词。

除了英语外，研究人员还对其他六种语言（阿拉伯语、汉语、芬兰语、韩语、俄语、泰语）进行评估，选择这些语言是为了涵盖影响模型学习拼写能力的各种特性，对每一种语言的评估都重复上述数据集构建过程。

文本生成实验

研究人员使用WikiSpell基准来评估多种预训练的纯文本模型在不同规模上的表现，包括T5（一个在英语数据上预训练的character-blind编码解码器模型）；mT5（与T5类似，但在超过100种语言上预训练）；ByT5（mT5的character-aware版本，直接在UTF-8字节序列上操作）；以及PaLM（一个规模更大的解码模型，主要是在英语上预训练的）。

在纯英语和多语言的实验结果中，可以发现character-blind模型T5和mT5在包含Top-1%最频繁词汇的桶上的表现要差很多。

这个结果似乎是反直觉的，因为模型通常在数据中频繁出现的例子上表现最好，但是由于subword词汇的训练方式，频繁出现的词通常被表示为一个单一的原子标记（或少量的标记），事实上也是如此：在英语前1%的桶中，87%的词被T5的词汇表示为一个子词标记。

因此，较低的拼写准确性分数表明，T5的编码器没有保留足够的关于其词汇中subword的拼写信息。

其次，对于character-blind模型，规模是影响拼写能力的一个重要因素。T5和mT5都随着规模的增加而逐渐变好，但即使在XXL规模下，这些模型也没有表现出特别强的拼写能力。

只有当character-blind模型达到PaLM的规模时，才开始看到近乎完美的拼写能力：540B参数的PaLM模型在英语的所有频率桶中都达到了>99%的准确率，尽管它在提示中只看到20个例子（而T5显示的是1000个微调例子）。

然而，PaLM在其他语言上的表现较差，可能是由于这些语言的预训练数据少得多。

对ByT5的实验表明，character-aware模型表现出更强大的拼写能力。ByT5在Base和Large尺寸下的表现仅略微落后于XL和XXL（尽管仍然至少在90%的范围内），而且一个词的频率似乎对ByT5的拼写能力没有太大影响。

ByT5的拼写性能远远超过了(m)T5的结果，甚至与参数多于100倍的PaLM的英语表现相当，并且超过了PaLM在其他语言上的表现。

从而可知ByT5编码器保留了相当多的字符级信息，而且这些信息可以根据解码任务的需要从这些冻结的参数中检索出来。

DrawText基准

从2014年发布的COCO数据集到2022年的DrawBench基准，从FID, CLIP得分到人类偏好等指标，如何评估text-to-image模型一直是一个重要的研究课题。

但目前在文本渲染和拼写评估方面一直缺乏相关工作。

为此，研究人员提出了一个新的基准DrawText，旨在全面衡量文本到图像模型的文本渲染质量。

DrawText基准由两部分组成，分别测量模型能力的不同维度：

1）DrawText Spell，通过大量的英语单词集合的普通单词渲染进行评估；

研究人员从英语WikiSpell频率桶中各抽取100个单词，并将它们插入一个标准模板中，总共构建了500个提示。

对于每个prompt，从候选模型中抽取4张图片，并使用人类评分和基于光学字符识别（OCR）的指标对其进行评估。

2）DrawText Creative，通过视觉效果的文本渲染进行评估。

视觉文本并不局限于像街道标志那样的常见场景，文字可以以多种形式出现，如潦草的、绘画的、雕刻的、雕塑的，等等。

如果图像生成模型支持灵活而准确的文本渲染，这将使设计师能够使用这些模型来开发创造性的字体、标志、布局等等。

为了测试图像生成模型支持这些用例的能力，研究人员与一位专业的图形设计师合作，构建了175个不同的提示，要求在一系列创造性的风格和设置中渲染文本。

许多提示超出了当前模型的能力，最先进的模型会表现出拼写错误、丢弃或重复的单词。

图像生成实验

实验结果显示，用于对比的9个图像生成模型中在DrawText Spell基准上的准确率中，character-aware模型（ByT5和Concat）无论模型尺寸大小都优于其他模型，特别是在不常见单词上。

Imagen-AR显示了避免cropping的好处，尽管训练时间长了6.6倍，其仍然比字character-aware模型表现差。

模型之间的另一个明显的区别在于它们是否在多个样本中持续地拼错一个给定的单词。

在实验结果中可以看出，无论抽取多少个样本，T5模型都有很多单词拼错，研究人员认为这表明文本编码器中缺少字符知识。

相比之下，ByT5模型基本只会出现零星的错误。

通过测量模型在所有四个图像样本中持续正确（4/4）或持续错误（0/4）的比率可以量化这一观察结果。

可以看到一个鲜明的对比，特别是在常见的词上（前1%），即ByT5模型从未持续错误，而T5模型在10%或更多的词上持续错误。

以上就是不做文盲画家！谷歌魔改「文本编码器」：一个小操作让图像生成模型学会「拼写」的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/559398.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

俄罗斯引擎怎么搜索资源

上一篇 2025年11月10日 00:20:07

PHP 单元测试实践中的常见问题与解决方案

下一篇 2025年11月10日 00:20:10

谷歌浏览器如何截图谷歌浏览器页面截图技巧

使用谷歌浏览器的开发者工具截图步骤：1. 按ctrl+shift+i（windows/linux）或cmd+option+i（mac）打开开发者工具。2. 点击右上角三个点，选择”更多工具”，再选择”截图”。3. 选择截取整个页面。推荐的谷歌浏览器扩展…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

Binance官方网站币安Binance最新App下载 v3.8.0官方下载通道

币安（binance）作为全球交易量领先的数字资产服务平台，其官方应用的安全性和功能的及时更新至关重要。本篇指南将为您详细解析如何通过币安官方网站，安全地获取并安装其最新版本的官方app，确保您使用的是官方正版通道，从而保障您的资产安全。官网访问与账户准备币安（Binance）官网入口：币安（…

程序猿
2026年5月10日
1000
用户投稿

火币app下载火币app官方下载最新版火币htx交易所安卓版

若您需要下载火币htx官方最新版的安卓应用，最安全可靠的方式是通过其官方网站进行获取。为了保障您的数字资产安全，请务必避免使用任何非官方渠道提供的下载链接或安装包，因为这些来源可能包含恶意软件，对您的账户和资金构成威胁。访问官网后，通常可以在页面显眼位置找到app下载入口或二维码。火币官网直达： …

程序猿
2026年5月10日
0000
binance交易平台官网入口币安官方最新版v3.3.0APP下载安装

欢迎来到币安（binance）的世界！作为全球领先的数字资产交易平台，保障账户安全的第一步就是从官方渠道获取应用程序。本指南将引导您如何安全下载并安装最新版的币安app，并完成后续的注册与安全设置。币安官网直达：币安官方app：一、币安官方App下载与安装为了确保您的资金安全，请务必通过官方…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

欧易OKX交易平台官网注册入口 2026欧易官方手机App下载地址

作为全球顶级的数字资产服务平台，欧易（okx）为用户提供了安全、稳定的交易环境。寻找一个长期有效且官方认证的注册入口至关重要。本指南旨在为您提供一个面向未来的欧易okx官方渠道指引，确保您在当下乃至未来几年，都能通过最安全的方式访问官网并下载官方正版手机应用。欧易OKX官网注册：开启您的数字资产之…

程序猿
2026年5月10日
0000
用户投稿

火币app手机版入口火币交易所官方手机版入口

火币app是一款广受欢迎的数字资产交易平台，为用户提供安全、便捷的加密货币交易服务。它支持多种主流数字货币的交易，并提供实时行情、专业k线图、法币交易、合约交易等多种功能，满足不同用户的交易需求。本文将为您提供官方app的下载链接及详细的安装教程，点击本文提供的下载链接即可安全下载。火币App下载…

程序猿
2026年5月10日
0000
用户投稿

o易交易所APP官方下载2025 okex安卓正版安装包v6.137.1

o易交易所APP是一款功能全面的数字资产交易平台，致力于为全球用户提供安全、便捷、专业的加密货币交易服务。该应用支持多种主流数字货币的交易，包括比特币（BTC）、以太坊（ETH）等，并提供币币交易、合约交易、理财等多元化服务。欧易官网入口：欧易okex安卓正版安装包v6.137.1： o易交易所…

程序猿
2026年5月10日
0000
CEX充提币：中心化交易所使用技巧

在加密货币交易的浩瀚宇宙中，选择一家可靠、高效且安全便捷的中心化交易所（cex）是每位投资者迈向成功的关键一步。尤其对于初入加密世界的新手而言，cex不仅是进入市场的大门，更是其资产的守护者。而对于经验丰富的交易者来说，深入掌握cex的充提币技巧，则意味着能够更灵活地调配资金，抓住稍纵即逝的市场机遇…

程序猿
用户投稿 2026年5月10日
1000
用户投稿

typescript用来干嘛_typescript的作用

TypeScript 是一种用于构建大型复杂应用程序的开源编程语言，它扩展了 JavaScript 的功能，具有以下作用：类型系统：编译时检查类型错误，提高代码可靠性。面向对象编程特性：支持类、接口、抽象类，增强代码组织性和维护性。模块系统：分解程序为可重用模块，提升可维护性和可扩展性。全面的类型推…

程序猿
2026年5月10日
0000
用户投稿

欧易交易所 OKX全球主流交易平台（官方网站）

欧易（OKX）是一款全球领先的数字资产服务平台，为用户提供币币、杠杆、期权/交割/永续合约、DEX交易、余币宝、DeFi挖矿、借贷等多元化的产品矩阵，覆盖超过200个国家和地区，拥有千万级用户量，致力于为全球用户提供一站式的数字资产服务。欧易交易所官方网站入口欧易全球官方网址是：欧易OKX下…

程序猿
2026年5月10日
0000
用户投稿

HTML地理位置怎么优化_本地SEO代码优化技巧

HTML地理位置优化需使用Schema.org标记并确保信息一致，结合关键词、地图嵌入和本地内容提升本地搜索排名。 HTML地理位置优化，简单来说，就是让你的网站在本地搜索结果中更容易被找到。核心在于告诉搜索引擎你的网站与特定地理位置相关，并提升用户体验。解决方案使用Schema.org标记： …

程序猿
2026年5月10日
2000
欧易官方iOS版下载_苹果手机欧易APP官方入口

想要进入数字资产的世界，选择一个安全可靠的平台至关重要。本文将作为您的向导，详细拆解欧易（okx）交易所从入门到上手的全部流程，包括官方渠道访问、app安全下载安装，以及新用户注册的每一步。跟随本指南，轻松开启您的交易之旅。第一步：访问欧易OKX官方网站欧易官方网址：欧易官方app： 1、请通…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

币安Binance正版官网地址币安Binance安全登录官网

如果你想访问币安Binance正版官网并进行安全登录，那么掌握正确的网址和安全操作方法非常关键。本文将为你详细介绍如何访问官方平台，以及在登录过程中需要注意的安全细节，帮助你更安心地管理加密货币资产。官网入口： APP下载：官网访问方法 1、确认网址：在访问币安Binance官网时，一定要输入官…

程序猿
2026年5月10日
1000
用户投稿

2025欧意交易所app官方下载欧意 v6.138.1 最新版app安卓版

欧意交易所App是一款广受欢迎的数字资产交易平台，致力于为全球用户提供安全、便捷、专业的加密货币交易服务。平台支持多种主流数字货币的交易，界面友好，功能强大，是您管理和增值数字资产的理想选择。欧易官网入口：欧易官网直链下载：下载步骤 1、点击上方提供的官方下载链接，浏览器将自动开始下载欧意交易…

程序猿
2026年5月10日
0000
币安binanceapp官方下载安装币安2025安卓最新版本入口地址

币安（Binance）是全球领先的数字资产交易平台之一，为用户提供安全、稳定、便捷的数字货币交易服务。它支持多种主流及新兴的数字资产，并提供丰富的交易工具和功能。本文将为您提供币安2025安卓最新版本的官方下载入口，您只需点击文中给出的下载链接，即可获取官方正版app安装包，开启您的数字资产之旅。…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

谷歌搜索的鼠标悬停阴影效果是如何实现的？

谷歌搜索悬停阴影效果解析在谷歌搜索页面中，当鼠标悬停在搜索框或按钮上时，会出现一个微妙的边缘阴影。想要了解这一效果的实现原理，许多开发者可能率先想到使用 css。 css 探索遗憾的是，在 css 代码中无法找到与阴影效果直接相关的属性或值。继续探索其他实现方法。浏览器开发者工具助力使用浏览…

程序猿
2025年12月24日
0000
用户投稿

如何用 CSS 实现谷歌搜索框鼠标悬停时的边缘阴影效果？

谷歌搜索框鼠标悬停时边缘阴影效果实现对于谷歌搜索框在鼠标悬停时的边缘阴影效果，你可能找不到直接的 css 代码，但这种效果可以通过 box-shadow 属性实现。 box-shadow 可以创建箱子周围的阴影效果，它的语法如下： box-shadow: h-offset v-offset blu…

程序猿
2025年12月24日
8000
用户投稿

如何实现谷歌搜索框鼠标悬停时的边缘阴影效果？

如何实现谷歌搜索框鼠标悬停时的边缘阴影效果？在谷歌搜索中，当鼠标悬停在搜索框和按钮上时，会产生一种精致的边缘阴影效果。实现这一效果需要使用 css 的 box-shadow 属性。 box-shadow 属性 box-shadow 属性允许在元素周围创建阴影效果。其语法为： box-shadow:…

程序猿
2025年12月24日
6000
用户投稿

鼠标悬停时，谷歌搜索元素的阴影效果是如何实现的？

鼠标悬停时突出显示谷歌搜索元素的阴影效果是如何实现的该效果是通过 css 的 box-shadow 属性实现的，该属性用于在元素周围创建阴影效果。当鼠标悬停在元素上时，应用 :hover 伪类，并添加 box-shadow 属性，为元素指定阴影效果。下面是一个示例 css 代码，它给谷歌搜索框…

程序猿
2025年12月24日
5000
CSS 砌体 Catness

css 就像技术中的其他东西一样 – 它总是在变化和发展。该领域正在进行的开发是 css 网格布局模块级别 3，也称为 css masonry 布局。 theo 制作了一段视频，介绍了它的开发方式以及苹果和谷歌就如何实施它进行的辩论。所有这些让我很高兴尝试 css 砌体！ webkit…

程序猿
用户投稿 2025年12月24日
0000