字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
 
在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图像更有效率。
然而,现有的Tokenizer通常会将输入图像映射为隐空间的一个降采样后的2D矩阵,这一设计隐式的限制了token与图像之间的映射关系,导致其很难有效的利用图像中的冗余信息(比如相邻的区域经常会有类似的特征)来获得一个更加有效的图像编码。
为了解决这一问题,字节跳动豆包大模型团队和慕尼黑工业大学提出了全新的1D图像Tokenizer:TiTok,这一Tokenizer打破了2D Tokenizer的设计局限,可以将整个图片压缩至更为紧凑的Token序列。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

字节豆包全新图像tokenizer:生成图像最低只需32个token,最高提速410倍

论文链接:https://arxiv.org/abs/2406.07550 
项目链接:https://yucornetto.github.io/projects/titok.html
代码链接:https://github.com/bytedance/1d-tokenizer
对于256 x 256分辨率的图片,TiTok最少仅需32个Token就可以表达,比通常2D Tokenizer的256或1024个Token显著减少。对于512 x 512分辨率的图片,TiTok最少仅需64个Token,64倍小于Stable Diffusion的VAE Tokenizer。此外,在ImageNet图像生成这一任务上,使用TiTok作为Tokenizer的生成器在生成质量和生成速度上都有显著提高。
在256分辨率,TiTok获得了1.97的FID,显著超过使用同样生成器的MaskGIT 4.21。在512分辨率TiTok可以获得2.74的FID,不仅超过了DiT(3.04),并且相比DiT在图像生成上加速了惊人的410倍!TiTok的最好变种取得了2.13的FID,显著超过DiT的同时仍旧有着74倍的加速。

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

                              TiTok仅用32个Token就可以完成高质量的图像重建与生成

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

                               图像所需Token的显著减少带来了明显更快的生成速度,但是同时维持了高质量的图像生成。
模型结构
TiTok的结构非常简单,编码器和解码器部分各自是一个ViT,在编码过程中,一组latent tokens会拼接在image patches后,在过完编码器后,仅保留latent tokens并进行quantization的过程。获得的quantized latent tokens将会与一组mask tokens拼接在一起,一并送入解码器,从mask token序列中重建出图像。

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

1D Tokenization 性质研究
研究者进行了一系列实验研究关于不同数量的用于表示图像的token,不同的tokenizer大小,重建表现,生成表现,linear probing准确率,以及训练和推理速度的比较。在这一过程中,研究者发现(1)仅需32个Token便能取得很好的重建与生成效果(2)通过增大Tokenizer的模型大小,研究者可以使用更少的Token来表示图片(3)当图片使用较少的Token来表示时,Tokenizer会学到更强的语义信息(4)使用更少的Token来表示图片时,训练和推理速度都有了显著的提升。

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

立即进入“豆包AI人工智官网入口”;

立即学习“豆包AI人工智能在线问答入口”;

此外,视频中展示了使用不同的Tokenizer大小以及Token数目时所重建出的图片,可以看到更大的Tokenizer可以在有限的Token下重建出质量更好的图像。此外,当仅有有限Token时,模型更倾向于保留显著区域有更好的重建效果。

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

实验验证
研究者主要在ImageNet-1k的256 x 256分辨率以及512 x 512分辨率上进行了与其他方法的比较。可以看到,尽管TiTok使用有限的Token数目,但是可以和其他使用更多Token的方法取得相当的重建效果(rFID),使用较少的Token数目让TiTok在维持较高的生成图片质量(gFID)的同时有着显著快于其他方法的生成速度。
例如TiTok-L-32获得了2.77的gFID score,同时可以以每秒101.6张图片的速度进行图片生成,这一速度显著快于其他Diffusion Models (169倍快于DiT)或者Transformer Models (339倍快于ViT-VQGAN).

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

TiTok使用较少Token的优势在更高分辨率的图像生成上更加明显,其中TiTok-L-64仅使用64个Token就能完成高质量的512分辨率图像的重建与生成,生成图像的质量不仅高于DiT (2.74 v.s. 3.04),同时生成速度提高了近410倍。

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

结论

在本文中,研究者专注于一个全新的1D Image Tokenizer,并提出了一种全新的Tokenizer来打破现有2D Tokenizer中的局限,进而更好的利用图像中的冗余信息。TiTok仅需少量的Token(比如32个)来表示图像,同时仍旧能进行高质量的图像重建与生成。在ImageNet的256分辨率和512分辨率生成实验中,TiTok不仅取得了超过Diffusion Models的生成质量,同时有着百倍更快的生成速度。
关于豆包大模型团队

字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。
豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。
欢迎加入字节跳动豆包大模型团队,点击下方链接即可进入字节跳动 Top Seed 计划:
https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ

以上就是字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/793798.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月26日 15:13:05
下一篇 2025年11月26日 15:18:05

相关推荐

  • TikTok视频无法下载怎么办 TikTok视频下载异常修复方法

    先检查链接格式、网络设置及工具版本。复制以https://www.tiktok.com/@或vm.tiktok.com开头的链接,删除?后参数,尝试短链接;确保网络畅通,可切换地区节点或关闭防火墙;更新工具至最新版,优先选用yt-dlp等持续维护的工具。 遇到TikTok视频下载不了的情况,别急着换…

    2025年12月6日 软件教程
    100
  • Vue.js应用中配置环境变量:灵活管理后端通信地址

    在%ignore_a_1%应用中,灵活配置后端api地址等参数是开发与部署的关键。本文将详细介绍两种主要的环境变量配置方法:推荐使用的`.env`文件,以及通过`cross-env`库在命令行中设置环境变量。通过这些方法,开发者可以轻松实现开发、测试、生产等不同环境下配置的动态切换,提高应用的可维护…

    2025年12月6日 web前端
    000
  • VSCode性能分析与瓶颈诊断技术

    首先通过资源监控定位异常进程,再利用开发者工具分析性能瓶颈,结合禁用扩展、优化语言服务器配置及项目设置,可有效解决VSCode卡顿问题。 VSCode作为主流的代码编辑器,虽然轻量高效,但在处理大型项目或配置复杂扩展时可能出现卡顿、响应延迟等问题。要解决这些性能问题,需要系统性地进行性能分析与瓶颈诊…

    2025年12月6日 开发工具
    000
  • VSCode插件:GitLens使用详解

    GitLens是VSCode中强大的Git增强插件,提供行级代码追踪、提交历史浏览、版本对比、跨文件导航及与GitHub等平台集成;通过启用Current Line Blame和In-Line Blame,可实时查看每行代码的作者与修改时间;支持按分支、作者过滤提交记录,比较差异,并利用Go Bac…

    2025年12月6日 开发工具
    000
  • mysql如何备份存储过程和函数

    最直接且推荐的方式是使用mysqldump工具并添加–routines参数,可完整导出存储过程和函数;若需跨版本迁移,应结合–triggers、处理DEFINER用户、验证SQL_MODE,并在测试环境充分验证恢复与兼容性。 MySQL备份存储过程和函数,最直接且推荐的方式是…

    2025年12月6日 数据库
    000
  • VSCode界面优化:精简布局与元素

    通过隐藏冗余组件和调整视觉元素可提升VSCode专注度。依次操作:1. 用Ctrl+B和Ctrl+J快捷键或设置隐藏侧边栏与面板;2. 在设置中关闭活动栏显示,并在settings.json中设置”window.titleBarStyle”: “inline&#8…

    2025年12月6日 开发工具
    000
  • JavaScript持续集成与部署

    持续集成与部署(CI/CD)通过自动化测试、构建和部署提升JavaScript项目交付效率。1. CI指频繁合并代码并自动运行测试以快速发现错误;2. CD在CI通过后自动将应用部署至生产环境;3. 常用工具包括GitHub Actions、GitLab CI/CD、CircleCI和Jenkins…

    2025年12月6日 web前端
    000
  • 谷歌浏览器标签页分组颜色怎么修改_谷歌浏览器标签分组个性化设置指南

    可通过右键菜单、拖拽建组或扩展程序修改谷歌浏览器标签分组颜色。首先右键分组圆点选新颜色;其次拖动标签创建分组时选择配色;最后可用“Tab Modifier”等扩展按规则自动着色。 如果您在使用谷歌浏览器时创建了标签页分组,但希望调整其颜色以便更好地区分不同任务或项目,则可以通过内置功能直接修改。以下…

    2025年12月6日 电脑教程
    000
  • 如何管理和同步VSCode的扩展配置,以便在新设备上快速恢复开发环境?

    使用 Settings Sync 是最快方式,通过 GitHub 账号同步扩展、设置、快捷键和代码片段;也可手动导出扩展列表(code –list-extensions > extensions.txt)并在新设备安装,结合备份 settings.json 等配置文件实现环境快速恢…

    2025年12月6日 开发工具
    000
  • 键盘背光模式设置

    键盘背光设置需根据设备类型选择方法:1. 先了解支持的背光模式,如常亮、呼吸、波浪等;2. 多数键盘可通过Fn组合键快捷切换亮度或模式,具体按键因品牌而异;3. 品牌机械键盘建议使用官方软件(如iCUE、Synapse)进行精细自定义;4. 笔记本通常用Fn加功能键调节,部分可在系统或厂商工具中设置…

    2025年12月6日 电脑教程
    000
  • VS Code扩展生态剖析:API设计与商店发布全流程指南

    VS Code扩展成功源于其插件化架构与丰富API。通过Activation Events、Contribution Points和Extension Host实现高效稳定的功能扩展,结合vscode.commands、languages、window、workspace等核心API提供完整开发支持…

    2025年12月6日 开发工具
    000
  • VSCode时间线:文件修改历史与代码追溯系统

    时间线功能是VSCode内置的代码追溯工具,通过整合Git历史记录提供文件修改的时间轴视图。用户可查看提交哈希、作者、时间、提交信息及变更行数,点击记录预览差异并还原版本。该功能依赖Git仓库,支持查看某行修改者、对比历史版本、恢复误删代码等操作,未启用Git时仅显示本地保存点。结合GitLens等…

    2025年12月6日 开发工具
    000
  • 蛐蛐 (QuQu)— 开源的桌面端语音输入与文本处理工具

    蛐蛐 (QuQu)是什么 蛐蛐(ququ)是一款专为中文用户打造的桌面语音输入与文本处理工具,旨在提供一个开源且免费的 wispr flow 替代方案。该工具集成了阿里巴巴的 funasr paraformer 模型,支持本地化部署与运行,有效保障用户隐私安全。同时融合先进 ai 技术,实现高精度语…

    2025年12月6日 科技
    000
  • VS Code源代码管理:变更跟踪与分支可视化操作解析

    VS Code内置Git功能提升开发效率:通过源代码管理视图实时跟踪文件变更,支持差异对比与部分暂存;借助Git图表可视化分支演进,直观管理提交历史;整合拉取、推送、分支切换等常用操作,简化协作流程。 VS Code 内置的源代码管理功能让开发者可以直接在编辑器中高效处理 Git 变更与分支操作,无…

    2025年12月6日 开发工具
    000
  • 数毛社实测PS5节能省电模式:功耗暴降55%

    近日,著名技术评测机构数毛社(digital foundry)对ps5最新系统固件中引入的“省电模式”展开深入实测。结果显示,虽然该功能对当前主机用户的实际意义较为有限,但其背后的技术方向或许正为索尼下一代便携式ps6设备铺路。 实机测试: 本次测试选用了两款已适配省电模式的游戏作品——《恶魔之魂》…

    2025年12月6日 游戏教程
    000
  • 字节跳动Seed3D 1.0发布:单图生成仿真级3D模型

    近日,字节跳动seed团队正式推出了其最新研究成果——3d生成大模型seed3d 1.0。该模型的核心亮点在于:仅需输入一张任意视角的二维图像,即可自动生成一个具备精细几何结构、高保真纹理贴图以及支持基于物理渲染(pbr)材质的高质量3d模型。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, …

    2025年12月6日 科技
    000
  • 美团 LongCat 团队发布 LongCat-Video 探索世界模型

    美团longcat团队近日正式推出全新视频生成模型longcat-video,致力于通过视频生成技术路径深入探索“世界模型”的构建,为自动驾驶、具身智能等前沿应用场景提供坚实的技术支撑。 该模型基于DiT(Diffusion in Time)架构设计,创新性地以“条件帧数量”作为任务区分标准,原生支…

    2025年12月6日 行业动态
    000
  • 探索VSCode云端开发环境搭建与配置方案

    首选GitHub Codespaces实现便捷云端开发,其次通过VSCode+SSH连接云服务器提升控制权,或采用Dev Containers确保环境一致性,结合性能优化与安全措施,满足不同场景下的高效协作需求。 在现代开发场景中,将VSCode与云端环境结合已成为提升协作效率、实现跨设备开发的重要…

    2025年12月6日 开发工具
    000
  • 豆包电脑网页版获取教程_豆包网页版正版安装方法

    首先访问豆包AI官网https://www.doubao.com/,通过浏览器登录或注册账号,确认界面功能完整后进入主页面,再按步骤创建并管理自定义AI智能体。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 如果您想在电脑上使用豆包AI,但…

    2025年12月6日 科技
    000
  • PHP/HTML代码格式化工具实践:以PHP-CS-Fixer为例

    本文针对php和html代码的自动化格式化需求,推荐并详细介绍了php-cs-fixer工具。它不仅能检查代码标准,还能自动修复格式问题,支持自定义规则集和ci/cd集成,是确保团队代码风格一致性的高效解决方案。通过本文,您将了解其安装、配置、使用及在持续集成环境中的应用。 在现代软件开发流程中,代…

    2025年12月6日 后端开发
    000

发表回复

登录后才能评论
关注微信