“中国人民大学研究员卢志武提出ChatGPT对多模态生成模型的重要影响”

天工大模型 天工大模型

中国首个对标ChatGPT的双千亿级大语言模型

天工大模型 115 查看详情 天工大模型

以下为卢志武教授在机器之心举办的 ChatGPT 及大模型技术大会上的演讲内容,机器之心进行了不改变原意的编辑、整理:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

大家好,我是中国人民大学卢志武。我今天报告的题目是《ChatGPT 对多模态通用生成模型的重要启发》,包含四部分内容。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

首先,ChatGPT 带给我们一些关于研究范式革新的启发。第一点就是要使用「大模型 + 大数据」,这是一个已经被再三被验证过的研究范式,也是 ChatGPT 的基础研究范式。特别要强调一点,大模型大到一定程度的时候才会有涌现(emergent)能力,比如 In-context learning、CoT 推理等能力,这些能力令人感到非常惊艳。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

第二点是要坚持「大模型 + 推理」,这也是 ChatGPT 让我印象最深刻的一点。因为在机器学习或者人工智能领域,推理被公认为是最难的,而 ChatGPT 在这一点上也有所突破。当然,ChatGPT 的推理能力可能主要来自代码训练,但是否有必然的联系还不能确定。在推理方面,我们应该下更多的工夫,搞清楚它到底来自什么,或者还有没有别的训练方式把它的推理能力进一步增强。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

第三点是大模型一定要和人类对齐(alignment),这是 ChatGPT 在工程角度或模型落地角度给我们的重要启示。如果没有与人类对齐的话,模型会生成很多有害的信息,让模型无法使用。第三点不是说提高模型的上限,而是模型的可靠性和安全性的确非常重要。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

ChatGPT 的问世对很多领域,包括我自己,都有非常大的触动。因为我自己做多模态做了好几年,我会开始反思为什么我们没有做出这么厉害的模型。

ChatGPT 是在语言或者文字上的通用生成,下面我们来了解一下多模态通用生成领域的最新进展。多模态预训练模型已开始向多模态通用生成模型转变,并有了一些初步的探索。首先我们看一下谷歌 2019 年提出的 Flamingo 模型,下图是它的模型结构。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

Flamingo 模型架构的主体是大型语言模型的解码器(Decoder),即上图右侧蓝色模块,在每个蓝色模块之间加了一些 adapter 层,左侧视觉的部分是添加了视觉编码器(Vision Encoder)和感知器重采样器(Perceiver Resampler)。整个模型的设计就是要把视觉的东西通过编码和转换,经过 adapter,跟语言对齐,这样模型就可以为图像自动生成文本描述。

Flamingo 这样的架构设计有什么好处呢?首先,上图中的蓝色模块是固定不动的(frozen),其中包括语言模型 Decoder;而粉色模块本身的参数量是可以控制的,所以 Flamingo 模型实际上训练的参数量是很少的。所以大家不要觉得多模态通用生成模型很难做,其实没有那么悲观。经过训练的 Flamingo 模型就可以做很多基于文本生成的通用任务,当然输入还是多模态的,比如做视频描述、视觉问答、多模态对话等。从这个角度看 Flamingo 算是一个通用生成模型。

第二个例子是前段时间新发布的 BLIP-2 模型,它是基于 BLIP-1 改进的,它的模型架构和 Flamingo 特别像,基本还是包含图像编码器和大型语言模型的解码器,这两部分是固定不动的, 然后中间加了一个具有转换器作用的 Q-Former—— 从视觉转换到语言。那么,BLIP-2 真正需要训练的部分就是 Q-Former。

如下图所示,首先将一张图(右边的图)输入到 Image Encoder,中间的 Text 是用户提出的问题或者指令,经过 Q-Former 编码以后输入到大型语言模型里,最后把答案生成出来,大概是这样一个生成过程。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

这两种模型的缺点很明显,因为它们出现的比较早或者刚出现,还没有考虑 ChatGPT 用到的工程手段,至少在图文对话或者多模态对话上没有做指令微调,所以它们整体的生成效果不尽如人意。

第三个是微软最近发布的 Kosmos-1,它的结构特别简单,并且只用图文对进行训练,多模态数据比较单一。Kosmos-1 跟上面两个模型最大的差别是:上面两个模型中的大语言模型本身是固定不动的,而 Kosmos-1 中的大型语言模型本身是要经过训练的,因此 Kosmos-1 模型的参数量只有 16 亿,而 16 亿参数的模型未必有涌现能力。当然,Kosmos-1 也没考虑图文对话上的指令微调,导致它有时也会胡说八道。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

下一个例子是谷歌的多模态具身视觉语言模型 PaLM-E。PaLM-E 模型和前三个例子是大同小异的,PaLM-E 也用了 ViT + 大型语言模型。PaLM-E 最大的突破是它终于在机器人领域探索了一下多模态大语言模型的落地可能性。PaLM-E 尝试了第一步探索,但是它考虑的机器人任务类型很有限,并不能达到真正的通用。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

最后一个例子是 GPT-4—— 在标准数据集上给出了特别惊人的结果,很多时候它的结果甚至比目前在数据集上训练微调过的 SOTA 模型还要好。这可能会让人特别震惊,但实际上这个评测结果并不代表什么。我们在两年前做多模态大模型时就发现大模型的能力不能在标准数据集上评估,在标准数据集上表现好并不代表实际使用的时候效果好,这两个之间有很大的 gap。出于这个原因,我对目前的 GPT-4 有些许失望,因为它只给出了标准数据集上的结果。而且目前可用的 GPT-4 还不是视觉版的,只是纯文字版的。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

上面几个模型总体来说是做通用的语言生成,输入是多模态输入,下面这两个模型就不一样了 —— 不仅要做通用语言生成,还要做视觉生成,既能生成语言也能生成图像。

首先是微软的 Visual ChatGPT,我简单评价一下。这个模型的思路特别简单,更多是产品设计上的考虑。与视觉有关的生成有很多种,还有一些视觉检测模型,这些不同任务的输入、指令千差万别,问题就是怎么用一个模型把这些任务全部包含进来,所以微软设计了 Prompt 管理器,核心部分用到了 OpenAI 的 ChatGPT,相当于把不同视觉生成任务的指令,通过 ChatGPT 翻译过来。用户的问题是自然语言描述的指令,通过 ChatGPT 把它翻译成机器能懂的指令。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

Visual ChatGPT 就是做了这样一个事情。所以从产品的角度看确实很好,但从模型设计的角度看却没有新的东西。所以整体从模型的层面看是一个「缝合怪」,没有统一的模型训练,导致不同模态之间没有互相促进。我们为什么做多模态,因为我们相信不同模态数据之间一定是互相帮助的。并且 Visual ChatGPT 也没考虑多模态生成指令微调,它的指令微调只是依赖于 ChatGPT 本身。

下一个例子是清华朱军老师的团队发布的 UniDiffuser 模型。这个模型从学术角度真正做到了多模态输入生成文字、生成视觉内容,这得益于他们基于 transformer 的网络架构 U-ViT,类似于 Stable Diffusion 最核心的部件 U-Net,进而把图像的生成和文本的生成统一在一个框架里。这个工作本身是很有意义的,但还是比较初期,比如只考虑了 Captioning 和 VQA 任务,没有考虑多轮对话,也没有做多模态生成上的指令微调。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

前面评价了这么多,那我们自己也做了一个产品叫 ChatImg,如下图所示。总体来说,ChatImg 包含图像编码器、图文多模态编码器和文本解码器,和 Flamingo、BLIP-2 是类似的,但是我们考虑的更多,具体实现的时候有细节差异。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

ChatImg 最大的一个优势是可以接受视频输入。我们特别重视多模态通用生成,包括生成文字、生成图像、生成视频。我们希望在这一个框架里实现多种生成任务,最终希望接入文字生成视频。

第二,我们特别重视真实用户的数据,我们希望得到真实用户数据以后不停优化生成模型本身,提高它的能力,所以我们发布了 ChatImg 应用。

下图是我们测试的一些例子,作为一个初期模型,虽然还有一些做得不好的地方,但总体来说 ChatImg 对图片的理解还是可以的。比如,ChatImg 可以在对话中生成对画作的描述,也能做一些 In-context  learning。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

上图第一个例子描述了《星夜》这幅画,在描述中 ChatImg 称梵高是美国画家,你告诉它错了,它马上就可以纠正过来;第二个例子 ChatImg 对图中的物体做出了物理推断;第三个例子是我自己拍的一张照片,这个照片里面有两道彩虹,它准确地识别到了。

我们注意到上图第三和第四个例子涉及到情绪方面的问题。这其实与我们接下来要做的工作有关,我们想把 ChatImg 接入到机器人里面去。现在的机器人通常是被动的,所有的指令全部是预设的,显得很呆板。我们希望接入 ChatImg 的机器人可以主动和人交流。怎么做到这一点呢?首先机器人一定要能感受到人,可能是客观地看到世界的状态和人的情绪,也可能是获得一种反映;然后机器人才能理解,才能跟人主动交流。通过这两个例子我感觉这个目标是可以实现的。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

最后,我总结一下今天的报告。首先,ChatGPT 和 GPT-4 带来了研究范式的革新,我们所有人都应该去积极拥抱这个变化,不能抱怨,不能找借口说没有资源,只要去面对这个变化,总有办法克服困难。多模态研究甚至也不需要几百卡的机器,只要采用对应的策略,少量的机器也可以做出很好的工作。第二,现有的多模态生成模型都存在各自的问题,GPT-4 还没有开放视觉版,我们所有人也都还有机会。并且,我认为 GPT-4 还有一个问题,就是多模态生成模型最终应该是什么样子它没有给一个完美答案(实际上是没有透露 GPT-4 的任何细节)。这其实是一件好事,全世界的人都很聪明,每个人都有自己的想法,这可能会形成百花齐放的研究新局面。我的演讲就到这里,谢谢大家。

中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发

以上就是”中国人民大学研究员卢志武提出ChatGPT对多模态生成模型的重要影响”的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/555677.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 22:19:44
下一篇 2025年11月9日 22:24:39

相关推荐

  • vivo Pad3 Pro 正式登场 跑分离谱还有蓝心大模型

    中关村在线消息:vivo 旗舰新品发布会正在进行中,本场发布会第一个登场的产品是 vivo pad3 pro。新款产品上来就放出王炸,搭载天玑 9300 处理器,跑分超过 210 万,也是行业首个突破 200 万的平板电脑。在游戏测试中,在 90 帧 +hdr 高清画质下,帧率稳定一条直线,性能十分…

    2025年12月5日
    000
  • 谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题

    大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…

    2025年12月5日 硬件教程
    000
  • 2025年全球AI应用top20最新榜单出炉

    生成式AI与多模态应用的代表包括:1. OpenAI GPT-5通过图灵测试,支持跨模态推理,API调用量达10万亿次/月;2. DeepSeek-R1用户破百万,推理成本低,支持中文理解;3. Google Gemini Ultra与谷歌生态深度整合,市占率40%;4. MidJourney V5…

    2025年12月4日
    000
  • OpenAI o4-mini— OpenAI推出的小型推理模型

    openai o4-mini 是由openai推出的一款小型推理模型,专为快速且经济高效的推理任务而设计。该模型在数学、编程和视觉任务上表现卓越,在aime 2024和2025基准测试中表现出色,是最佳模型之一。openai o4-mini 支持高容量和高吞吐量的推理任务,适用于快速处理大量问题。它…

    2025年12月4日
    000
  • OpenAI拟30亿美元收购AI编程工具Windsurf

    据知情人士透露,openai正在商谈以约30亿美元的价格收购人工智能辅助编码工具windsurf(原名codeium)。此项交易将成为openai迄今为止最大的一笔收购案,尽管具体细节尚未敲定,谈判仍有可能会改变或终止。 报道指出,Windsurf正在与Kleiner Perkins和General…

    2025年12月4日
    000
  • 显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

    上海交大、上海ai lab和港中文大学的研究人员推出visual-rft(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(lvlm)性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调(rft)范式相结合,成功地将这一方法…

    2025年12月3日 硬件教程
    000
  • 苹果回应马斯克指控:App Store 公平且无偏见

    感谢网友 風見暉一、对的时间点 提供的线索! 8 月 13 日,苹果公司针对埃隆・马斯克(Elon Musk)此前关于 App Store 在人工智能应用推广中偏袒 OpenAI 的 ChatGPT 的说法作出回应,强调其应用商店平台始终保持中立与公平。 苹果向彭博社记者马克・古尔曼(Mark Gu…

    2025年12月3日
    100
  • 快速生成ai图片的工具排行榜单top10汇总

    以下是快速生成AI图片的工具排行榜单前三名:1. DALL·E 3:由OpenAI开发,支持复杂指令和多轮对话修改,集成于ChatGPT Plus或通过Bing Image Creator免费使用。2. Midjourney:基于Discord,艺术风格多样,生成质量高,需订阅使用。3. Stabl…

    2025年12月3日 科技
    100
  • AI 越聪明越不听话!新研究:最强推理模型指令遵循率仅 50%

    如果面前有两个 ai 助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Lar…

    2025年12月3日 硬件教程
    100
  • Agent 要被吃进大模型了

    今天凌晨,奥特曼突然发文宣布推出自家最新的 o 系列模型:满血版 o3 和 o4-mini,同时表示这两款模型都可以自由调用 chatgpt 里的各种工具,包括但不限于图像生成、图像分析、文件解释、网络搜索、python。 总的来说,就是比前一代的性能更强而且价格更低。 ☞☞☞AI 智能聊天, 问答…

    2025年12月3日 科技
    000
  • APP接入AI大模型:实现智能化!

    ai大模型凭借其卓越的理解、生成与推理能力,正在重塑软件应用的形态。将ai大模型能力融入现有或新开发的app中(即app接入ai大模型),已成为开发者增强产品竞争力、为用户打造前所未有的智能体验的关键手段。这不仅是一次技术迭代,更是推动应用向智能化转型的核心战略。 为何APP接入AI大模型已成为不可…

    2025年12月3日
    000
  • AI如何连接数据库执行SQL_利用AI工具连接并运行SQL教程

    AI连接数据库执行SQL是通过自然语言理解将用户需求转化为可执行的SQL语句,实现人机协作的数据查询方式。首先选择支持数据库类型的AI工具,配置安全连接并提供数据库Schema以提升准确性;接着输入自然语言问题,AI生成SQL后需经人工审查优化,再执行获取结果。该技术降低了非技术人员使用数据的门槛,…

    2025年12月3日 数据库
    000
  • 《梦幻西游》全新赛事祥瑞即将来袭,剪影图曝光

    《梦幻西游》电脑版全新赛事祥瑞曝光,11月将会和广大玩家正式亮相!你们猜猜这只祥瑞是以什么为原型做的设计,以及和梦幻接下来的什么活动有关 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻…

    2025年12月2日 行业动态
    000
  • 《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!

    《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队! 无涯·问知 无涯·问知,是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品 153 查看详情 以上就是《梦幻西游》镇淮楼再掏出魔王九黎力普陀三攻,激战曲阜服战队!的详细内容,更多请关注…

    2025年12月2日
    000
  • 首届魔搭开发者大会举办,重磅发布开发者激励计划

    雷峰网讯 6 月 30 日,首届魔搭开发者大会在北京盛大召开。自 2022 年 11 月成立以来,经过两年多的快速发展,社区已聚集超过 500 家贡献机构,托管开源模型数量突破 7 万个,增长达 200 多倍;用户规模从 2023 年 4 月的 100 万迅速扩展至目前的 1600 万,增幅约 16…

    2025年12月2日
    000
  • 怎样用免费工具做年终PPT_免费年终总结PPT的制作方法

    使用AI工具可免费快速制作专业年终总结PPT。首先通过Autoppt输入主题一键生成多套方案;其次利用博思AIPPT或笔灵PPT导入已有文档自动转为幻灯片;再从OfficePlus等网站下载免费模板手动填充内容;最后熟悉VBA者可用ChatGPT生成代码自动化创建8页基础结构,提升效率。 如果您需要…

    2025年12月2日
    000
  • 夸克网盘资源精品合集_夸克网盘入口快速下载链接直达

    夸克网盘资源精品合集_夸克网盘入口快速下载链接直达?这是不少网友都关注的,接下来由PHP小编为大家带来夸克网盘资源精品合集_夸克网盘入口快速下载链接直达,感兴趣的网友一起随小编来瞧瞧吧! 夸克网盘资源精品合集入口 1、夸克网盘资源精品合集可通过其官方应用或网页端直接访问,官方地址为:https://…

    2025年12月2日 软件教程
    000
  • 如何使用 CSS Flexbox 实现图片和文本的响应式布局?

    CSS Flexbox 响应式布局:图片与文本的完美结合 构建自适应网页布局,应对不同屏幕尺寸至关重要。本文将演示如何利用 CSS Flexbox 实现一个常见的布局需求:左侧固定尺寸图片,右侧自适应文本内容。 在宽屏设备上,文本占据剩余空间;而在窄屏设备(例如手机)上,图片则显示在文本上方。 挑战…

    2025年12月2日 web前端
    000
  • 苹果发布 Safari 技术预览版 223:聚焦稳定性与性能优化

    近日,苹果公司推出了 safari 技术预览版的最新版本 223,该版本属于其专为开发者和早期用户打造的实验性浏览器更新。本次更新的重点在于修复已知问题并提升性能表现,目的是为未来正式版 safari 浏览器打下更坚实的基础。 自 2016 年首次发布以来,Safari 技术预览版一直是开发者测试 …

    2025年12月2日
    000
  • Grok和ChatGPT有什么不同 Grok核心功能与区别对比【分析】

    Grok依托X平台实时数据,擅长热点追踪与分步推理,支持“Deep Search”等专业模式,但仅限Premium+用户使用;ChatGPT知识库固定但功能全面,通过插件实现联网,图像生成更精准,提供免费至付费多层级服务,生态开放且接入便捷。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免…

    2025年12月2日 科技
    000

发表回复

登录后才能评论
关注微信