清华浙大主导开源视觉模型爆炸， GPT-4V与LLaVA、CogAgent等平台带来革命性变革

程序猿 • 2025年11月7日 21:45:23 • 用户投稿 • 阅读 2

目前，GPT-4 Vision在语言理解和视觉处理方面显示出了令人惊叹的能力。

然而，对于那些希望在不影响性能的情况下寻求成本效益替代方案的人来说，开源方案是一个具有无限潜力的选择。

Youssef Hosni是一位国外开发者，他为我们提供了三种可访问性绝对保障的开源替代方案来取代GPT-4V。

三种开源视觉语言模型LLaVa、CogAgent和BakLLaVA在视觉处理领域拥有巨大潜力，值得我们深入了解。这些模型的研究和开发，可以为我们提供更高效、精准的视觉处理解决方案。通过运用这些模型，我们可以提升图像识别、目标检测和图像生成等任务的准确性和效率，为视觉处理领域的研究和应用带

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

LLaVa

LLaVA是一个多模态大模型，由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员合作开发。最初的版本发布于4月份。

它将视觉编码器和Vicuna（用于通用视觉和语言理解）结合在一起，展现了非常出色的聊天能力。

图片

10月份，经过升级的LLaVA-1.5在性能上已经接近多模态GPT-4，并在Science QA数据集上取得了最先进的结果（SOTA）。

图片

13B模型的训练，只需要8个A100就可以在1天内完成。

图片

可以看到，LLaVA能处理各类问题，且生成的回答既全面又富有逻辑。

LLaVA表现出一些接近GPT-4水平的多模态能力，在视觉聊天方面，GPT-4相对评分85%。

而在推理问答方面，LLaVA甚至达到了新SoTA——92.53%，击败多模态思维链。

图片

在视觉推理上，它的表现十分抢眼。

图片

提问：「如果有事实性错误，请指出来。如果没有，请告诉我，沙漠中正在发生什么？」

LLaVA还无法完全回答正确。

升级后的LLaVA-1.5给出了完美答案：「图中根本没有沙漠，有的是棕榈树海滩、城市天际线和一大片水域。」

图片

另外，LLaVA-1.5还可以从图中提取信息，按照要求的格式进行回答，比如以JSON格式输出。

图片

给LLaVA-1.5一张满是水果蔬菜的图片，它也能像GPT-4V一样，把图片转化JSON。

图片

下面这幅图是什么意思？

图片

这是一张根据诺兰《盗梦空间》绘制的简化草图，为了提高难度，角色名字被改成了假名。

LLaVA-1.5惊艳答出：「这是一张关于电影《盗梦空间》的图。它显示了梦境世界中的不同层次，每一层次用一条线表示。图写在一张纸上，纸放在一个台面上。」

图片

一张食物图直接发给LLaVA-1.5，它火速就给你生成一份菜谱。

图片

而且，LLaVA-1.5不用「越狱」就可以识别出验证码。

图片

它还能检测出，图中是哪种硬币。

图片

尤为令人印象深刻的是，LLaVA-1.5还能告诉你图中的汪星人是什么品种。

图片

有网友用Bing生成了一张在阳光明媚的夏季海滩上穿着冬季外套的男人的图片，并请LLaVA 1.5指出图中有哪些问题。它的慧眼十分犀利——

这是一张经过处理或PS的照片，照片中一名男子穿着夹克，站在海滩上。该男子敞开外套，阳光照在他身上。这张图片的问题在于，它并非真实的海滩场景。该男子实际上并没有站在沙滩上，阳光也没有照在他身上。这张图是p出来的，营造出了一种海滩场景的假象，但它并没有真实地再现这个场景。

图片

OCR识别，LLaVA的性能也很强大。

图片

CogAgent

CogAgent是在CogVLM基础上改进的开源视觉语言模型，来自清华的研究者。

CogAgent-18B有110亿个视觉参数，和70亿个语言参数。

图片

论文地址：https://arxiv.org/pdf/2312.08914.pdf

在9个经典的跨模态基准（包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE）上，CogAgent-18B实现了最先进的通用性能。

在AITW和Mind2Web等图形用户界面操作数据集上，它大大超过了现有模型。

除了CogVLM已有的所有功能（可视化多轮对话、可视化接地）外，CogAgent.NET还提供了更多的功能：

甲骨文AI协同平台

专门用于甲骨文研究的革命性平台

21 查看详情

1.支持更高分辨率的视觉输入和对话答题。支持1120×1120的超高分辨率图像输入。

2.具备可视化代理的能力，能够在任何图形用户界面截图上返回任何给定任务的计划、下⼀步行动和带有坐标的具体操作。

3.增强了与图形用户界面相关的问题解答功能，使其能够处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。

4.通过改进预培训和微调，增强了OCR相关任务的能力。

图形用户界面代理（GUI Agent）

利用CogAgent，它可以帮我们一步步找到CVPR23的最佳论文。

图片

可以帮我们把手机显示调成明亮模式。

图片

这条推文有多少转评赞，为什么如此受欢迎，CogAgent都能分析出来，甚至连回复一个“Brilliant”，它都能操作。

图片

从弗罗里达大学到好莱坞，怎样选择最快的路线？如果从早上8点出发，该如何评估需要花多长时间？CogAgent都可以回答。

图片

可以设定特定的主题，让CogAgent往指定的邮箱里发邮件。

图片

想听一首，CogAgent可以一步步列出步骤。

图片

CogAgent能精准地描述出《原神》中的画面，还能引导你如何走到传送点。

图片

BakLLaVA

BakLLaVA1是使用LLaVA 1.5架构增强的Mistral 7B基础模型。

在第⼀个版本中，Mistral 7B基础模型在多个基准测试中优于Llama 2 13B。

在他们的repo中，就可以运行BakLLaVA-1了。页面还在不断更新中，以方便微调和推理。(https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1是完全开源的，但在某些数据上进行了训练，其中包括LLaVA的语料库，因此不允许商用。

BakLLaVA 2采用了更大的数据集和更新的架构，超越了当前的LLaVa方法。BakLLaVA摆脱了BakLLaVA-1的限制，可以商用。

参考资料：

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

以上就是清华浙大主导开源视觉模型爆炸， GPT-4V与LLaVA、CogAgent等平台带来革命性变革的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/448035.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

java怎么过滤数组

上一篇 2025年11月7日 21:45:22

越来越黑暗死亡骑士搭配什么职业-越来越黑暗死亡骑士适合搭配何种职业

下一篇 2025年11月7日 21:45:25

用户投稿

开源 C++ 框架如何利用社区贡献提升可扩展性和维护性？

开源 c++++ 框架利用社区贡献增强可扩展性和可维护性：可扩展性：添加新功能模块化设计可插件架构可维护性：改进文档修复错误代码审查实战案例： boost 库通过社区贡献，扩展了新库，持续维护现有库，提供了广泛的文档，提升了可扩展性和可维护性。开源 C++ 框架を活用：利用社区贡献增强可扩展性和可…

程序猿
2025年12月18日
0000
用户投稿

深度了解开源和商业C++框架之间的差异，以做出最佳选择

在选择 c++++ 框架时，开源和商业选项的区别在于：许可证：开源框架免费且可修改，而商业框架通常受限。支持：开源框架依靠社区支持，而商业框架提供付费专业帮助。特性：开源框架特性广泛，但稳定性各异，而商业框架通常经过维护，功能可靠。成本：开源框架免费，而商业框架需要许可费用，价格可能很高。根据项目需…

程序猿
2025年12月18日
8000
用户投稿

C++开源框架与商用框架有何异同？

商用框架需要购买许可证且拥有专业支持，而开源框架免费且可自定义，具备广泛的社区支持。差异还包括：许可证限制：开源框架更宽松，而商用框架更严格。安全性：商用框架通常经过更严格的测试和审核。认证：某些商用框架已通过行业认证。 C++ 开源与商用框架对比引言在现代 C++ 开发中，框架已成为必不可少的…

程序猿
2025年12月18日
0000
用户投稿

开源 C++ 框架与商业 C++ 框架的最佳实践有何不同？

开源和商业 c++++ 框架的最佳实践取决于以下关键差异：许可：开源框架使用免费和开源许可证，允许修改和分发，而商业框架受专有许可证限制。支持：开源框架依赖社区支持，而商业框架提供官方支持和服务。定制：开源框架更具可定制性，而商业框架提供预先构建的组件。价格：开源框架免费，而商业框架需要付费许可证。…

程序猿
2025年12月18日
0000
用户投稿

开源C++框架与C++库的区别

框架提供结构和预建组件，加快开发但限制灵活性。库提供特定功能的实现，扩展功能而不影响结构。例如，qt 框架简化了 gui 开发，而 opencv 库提供了计算机视觉功能。开源 C++ 框架与库的区别在软件开发中，框架和库是两种不同的概念。两种工具都可以在加快开发时间和提高代码质量方面发挥重要作用…

程序猿
2025年12月18日
0000
用户投稿

C++框架的开源与商业模式演变趋势如何？

c++++ 框架开源与商业模式趋势：开源框架兴起，提供免费且强大的工具。商业框架适应竞争，提供附加功能和支持。混合模型流行，结合开源框架和商业附加组件。qt 作为案例，同时提供开源和商业许可选项。应对策略：评估选项、考虑混合模型、与社区互动。 C++ 框架开源与商业模式演变趋势引言开源 C++ …

程序猿
2025年12月18日
0000
用户投稿

开源C++框架 vs 商业C++框架：专业人士解读

开源 C++ 框架与商业 C++ 框架：专业人士的视角在 C++ 应用开发的世界中，开源和商业框架之间存在着激烈的竞争。每个阵营都有其优缺点，并且根据具体项目要求进行明智的选择至关重要。开源 C++ 框架优点：免费且社区支持丰富高度可定制和灵活可见性高，文档齐全缺点：可能缺乏专业支持社区…

程序猿
2025年12月18日
0000
用户投稿

如何对比不同C++框架的开源性和商业许可模型？

了解 c++++ 框架的开源性和商业许可模型至关重要：研究开源许可证：框架通常使用 apache 2.0、mit 等开放源代码许可证。了解许可协议以确保符合项目要求。考虑商业许可证：商业许可证授予额外权利和支持，需要支付费用，但可能包括技术支持和定制开发。对比不同框架：通过比较表格了解特定 c++ …

程序猿
2025年12月18日
7000
用户投稿

开源和商业C++框架对比：究竟有何优劣？

开源和商业 c++++ 框架各有优劣：开源框架：免费，社区支持，可定制，支持新技术，但技术支持有限，质量控制受限，许可限制。商业框架：提供全面支持，稳定可靠，组件预配置，企业级支持，但价格昂贵，源代码封闭，供应商锁定。选择建议：开源框架适合需要定制、技术支持要求不高、预算有限的项目；商业框架适合稳定…

程序猿
2025年12月18日
0000
用户投稿

开源C++框架与商业C++框架：成本效益分析

对于 c++++ 框架，开源框架免除前期费用和提供无限次使用，而商业框架则需支付许可或订阅费。开源框架功能有限但可定制，商业框架功能丰富但灵活性较差。初创公司和需要定制的企业倾向于开源框架，而企业机构和需要广泛功能的企业倾向于商业框架。开源与商业 C++ 框架的成本效益分析在选择 C++ 框架时…

程序猿
2025年12月18日
0000
用户投稿

深度剖析：开源C++框架和商业C++框架的优劣势

开源框架的优点是成本节约、灵活性、社区支持和透明度，而缺点是技术支持有限、质量不可靠和安全性问题。商业框架的优点是全面的技术支持、更高的质量和可靠性、针对性优化，而缺点是许可费用、限制性许可和供应商锁定。具体选择取决于项目需求，开源框架提供成本节约和灵活性，而商业框架提供全面的支持和可靠性。深入分…

程序猿
2025年12月18日
0000
用户投稿

从业者视角：开源C++框架与商业C++框架对比

从开发者的角度来看，开源c++++框架因其免费、可定制且社区支持活跃而受青睐。商业c++框架则以官方支持、完善文档和经过验证的质量取胜，但也需要支付许可费并限制可定制性。在选择时，小型项目、研究项目或熟练团队更适合开源框架，而企业级项目或注重可扩展性、稳定性的项目则更适合商业框架。从业者视角：开源…

程序猿
2025年12月18日
0000
用户投稿

C++框架大比拼：开源与商业谁更胜一筹？

对于 c++++ 框架选择，开源与商业各有千秋：开源框架：免费、灵活，社区支持强，但缺乏技术支持和保证。商业框架：提供支持、文档齐全、版本稳定，但需要许可费，限制灵活性，社区支持有限。 C++ 框架大比拼：开源与商业，谁更胜一筹？ C++ 广泛应用于打造高性能、高效的应用程序。选择合适的框架至关重要…

程序猿
2025年12月18日
0000
用户投稿

开源还是商业？C++框架选用指南

开源与商业 c++++ 框架优缺点对比：开源框架：免费使用，社区支持，可定制性强，但性能和商业支持有限。商业框架：性能稳定，专业支持，预置组件，但需付费，定制性受限，开源贡献受限。根据项目需求，选择开源框架适用于灵活性、成本优先的项目，而商业框架适用于高性能、稳定性、技术支持要求高的项目。开源还是…

程序猿
2025年12月18日
0000
用户投稿

C++框架评估：开源与商业的全面解析

摘要：开源c++++框架的优点包括免费、社区支持和灵活性，但缺乏支持和安全性问题。商业框架提供专业支持、性能和稳定性，但需要费用、受限的定制和供应商锁定。选择框架时，应考虑应用程序要求、预算、可定制性、社区支持等标准，根据项目需求做出明智的决策。 C++ 框架评估：开源与商业的全面解析在选择 C+…

程序猿
2025年12月18日
0000
用户投稿

特定领域C++框架的开源和商业解决方案比较

特定领域c++++框架（dsf）旨在简化开发工作并提高应用程序质量。可用的dsf包含开源和商业解决方案。开源解决方案boost：广泛的c++库集合，涵盖字符串处理、网络编程等领域。opencv：计算机视觉和机器学习库，提供图像处理和物体检测算法。商业解决方案the qt framework：跨平台g…

程序猿
2025年12月18日
1000
用户投稿

C++ 框架的开源选项有哪些？

c++++ 开发中的开源框架提供了众多优势，包括可重用代码、设计模式和最佳实践。本文重点介绍了五个流行的开源 c++ 框架：qt：用于创建跨平台 gui，提供丰富的组件、布局管理和信号/槽机制。boost：c++ 标准库的扩展，包含容器、算法、并发和字符串处理等功能。wxwidgets：跨平台 gu…

程序猿
2025年12月18日
0000
用户投稿

怎么看php源码是不是开源_辨php源码是否开源方法

要判断PHP源码是否开源，需检查根目录是否有LICENSE等文件并确认其为MIT、GPL等公认许可证；查看.php文件头部注释是否包含License关键词或链接；核实项目托管平台（如GitHub）页面是否标明许可证类型；使用FOSSA、Snyk等工具扫描代码库进行自动化检测；最后依据开源定义四大自由…

程序猿
2025年12月13日
0000
用户投稿

HiDream-I1— 智象未来开源的文生图模型

hidream-i1：一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型，采用MIT许可证，在图像质量和对提示词的理解方面表现卓越。它支持多种风格，包括写实、卡通和艺术风格，广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

程序猿
2025年12月5日
2000
RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

清华和上交的最新论文中，上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。通过一系列实验，他们证明引入强化学习的模型在某些任务中的表现，竟然不如未使用强化学习的模型。论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用，尤…

程序猿
2025年12月3日 • 用户投稿
2000