liquid
-
生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!



华中科技大学、字节跳动和香港大学联合团队研发了一种名为liquid的极简统一多模态生成框架,该框架无需复杂的外部视觉模块,即可实现图像生成和理解。liquid巧妙地利用vqgan将图像编码为离散视觉token,并将其与文本token整合到同一词表空间,从而使现有的大型语言模型(llm)能够直接处理视…



华中科技大学、字节跳动和香港大学联合团队研发了一种名为liquid的极简统一多模态生成框架,该框架无需复杂的外部视觉模块,即可实现图像生成和理解。liquid巧妙地利用vqgan将图像编码为离散视觉token,并将其与文本token整合到同一词表空间,从而使现有的大型语言模型(llm)能够直接处理视…