当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的共同第一作者是马里兰大学电子计算机工程系的博士生吴曦旸(https://wuxiyang1996.github.io/)和计算机科学系的关天瑞(https://tianruiguan.phd/)。吴曦旸的研究方向主要涵盖强化学习、自动驾驶,以及大语言模型在机器人导航和计算机视觉中的应用。关天瑞的研究则聚焦于计算机视觉和视觉语言模型在机器人、自动驾驶等领域的应用。本文的指导老师为李典奇,周天翼教授 (https://tianyizhou.github.io/)和 Dinesh Manocha 教授 (https://www.cs.umd.edu/people/dmanocha)。

想象一下,有一天你在沙漠中看到一个雪人,或者在雪地里发现一棵棕榈树。面对这些与周围环境格格不入的景象,你是否会感到心理上的不适?

在认知科学领域,研究者普遍认为人脑倾向于利用以往的经验来解读观察到的信息并构建记忆。然而,当人脑接收到与以往认知不符的信息时,可能会因为 “认知失调”(Cognitive Dissonance)而对外部环境产生误判,进而在行为上表现出矛盾。例如,我们通常认为电脑是由人类操控的,但如果我们看到一只章鱼在操控电脑,这种不符合常理的场景会让人脑产生认知失调的不适感。

随着对大模型的深入研究,研究人员发现,在认知和推理任务上,大模型的思维过程与人脑有一定相似之处。因此,针对人脑认知失调特点设计的实验也能使大模型出现类似的 “幻觉” 现象。

基于这一观察,马里兰大学的研究团队提出了一个名为 AutoHallusion 的视觉大模型幻觉自动生成框架。这一工作基于团队之前在 CVPR 2024 上发表的工作 HalluionBench(https://arxiv.org/pdf/2310.14566)。它通过在场景图像中插入或删除特定物体,并针对这些修改后的图像提问,从而检测大模型在回答时可能出现的幻觉现象。

这一方法能够自动生成大量的大模型幻觉案例,有效缓解当前大模型幻觉研究中数据集缺乏的问题。在 GPT-4V、Gemini 和 Claude 等大模型上的实验表明,这些模型在本文提出的提出的基准数据集上问答准确率最高仅为 66.0%。该研究成果已发表于 EMNLP 2024。

当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架

论文标题:AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models

论文链接:https://arxiv.org/pdf/2406.10900

项目主页及代码:https://wuxiyang1996.github.io/autohallusion_page/

文章概述

大型视觉语言模型(LVLMs)在内容生成、自动驾驶和机器人等领域中扮演着重要角色。然而,它们也会出现 “幻觉” 现象,即生成的响应中包含视觉内容中不存在的信息。这些幻觉通常是由于语言模块过度依赖语言先验信息而忽略视觉输入所致。

为了解决这一问题,之前的工作通常收集幻觉案例建立基准数据集,并以此对大模型进行微调,以减少可能存在的幻觉。然而,手动创建幻觉案例和基准既耗时又昂贵。此外,之前的工作对大模型产生幻觉的机制研究有限,在缺乏足够代表性案例的情况下对大模型进行微调,可能会导致模型出现过拟合现象。

为此,本文提出了 AUTOHALLUSION 框架,可以自动生成各种幻觉案例并进行批量生产。该框架基于认知科学原理,针对大模型产生幻觉的原因,提出了三种主要策略:插入异常物体、插入成对物体和移除相关物体,通过操控场景中的物体构成来创建与语言先验相冲突的图像。

为了生成能够触发大模型幻觉的(图像 – 问题)组合,本文针对修改后的图像,设计相应的问题探测大模型的语言模块,定位特定物体或其在相关情境中的语言先验信息。如果大模型的推理受到语言先验的偏见影响,例如在根据图片回答某一特定物体的问题时,大模型根据场景图片的先验知识而非物体本身传递的信息来作答,那么就可能生成与事实不符或前后不一致的响应,从而导致幻觉现象。

AUTOHALLUSION 在包括 GPT-4V、Gemini、Claude 和 LLaVA 等最新的大模型上进行了实验,并整理发布了一个基准数据集,来评估模型性能。在该基准数据集上的实验结果表明,GPT-4V 等大模型的问答准确率最高仅为 66.0%。

数据集地址:https://github.com/wuxiyang1996/AutoHallusion

研究方法

当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架

AUTOHALLUSION 的整体流程分为四个部分:

1. 场景生成:AUTOHALLUSION 使用合成或真实世界图像作为场景图。例如,在办公室场景中,假设场景中有电脑、办公桌、办公椅等与办公室主题一致的物体,而不会有炒锅等与主题无关的物体。图像可以通过 DALL-E 等图像生成模型根据提示生成,也可以从 MSCOCO 等公开数据集中提取场景。

2. 图像处理:AUTOHALLUSION 采用三种策略操控场景中的物体构成,以创建与语言先验相冲突的图像:

插入异常物体:将与场景主题不相关的异常物体添加到场景中,例如,在办公室场景中添加通常不会出现的炒锅。

插入成对物体:对通常一起出现的两个物体进行分离,保留一个并移除另一个。例如,牙刷和牙膏通常一起出现,而在修改后的图像中,只保留牙刷并移除牙膏。

移除相关物体:从原场景中移除一个相关物体,例如,在办公室场景中抹除显示器。

可灵大模型 可灵大模型

可灵大模型(Kling)是由快手大模型团队自研打造的视频生成大模型

可灵大模型 214 查看详情 可灵大模型

3. 构造问题:AUTOHALLUSION 针对图像处理过程中插入或删除的物体进行提问,并相应地构造事实信息。问题主要分为两类:

存在性问题:询问目标物体是否存在于图像中,问题提示信息的细节级别不一,从不提供额外信息到提供完整的图像描述。

空间关系问题:询问目标物体与场景中其他物体的相对位置,并在问题提示中提供场景物体的名称或描述。

当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架

4. 幻觉检测:AUTOHALLUSION 通过对比大模型的回答与事实信息或其他回答,来判断其回答中是否存在幻觉。目前,AUTOHALLUSION 能够检测以下两种类型的大模型幻觉:

正确性:大模型的回答与基本事实不一致。

一致性:大模型在面对包括不同级别的补充信息的问题时,无法给出一致的答案,或者在针对某一特定物体的提问中,未能提供与图像描述一致的答案。

实验结果

下表展示了通过 AutoHallusion 生成的大模型幻觉案例的成功率,结果显示出以下几个主要发现:

插入物体的幻觉生成策略比删除物体的策略更有效。

基于物体存在性构建的问题比基于物体空间关系的问题更容易引发幻觉。

GPT-4V 在防止大模型幻觉方面表现最好。

针对真实世界数据集构建的幻觉案例成功率高于合成数据集。本文认为,这可能是由于大模型难以处理真实世界图像中物体语义关系的复杂性所致。

当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架

下图展示了针对物体 – 场景对齐关系的消融实验结果。在该实验中,本文采用不同的大模型来生成用于图像编辑的物体,并在视觉问答(VQA)任务中进行评估。

当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架

基准数据集指标

本文从以下三个方面评估了通过 AutoHallusion 生成的基准数据集:

多样性:衡量数据集中不同场景和对象的数量,包括 200 个(合成)/160 个(真实世界)样本。

图像质量:通过原始图像和编辑图像的 IS(Inception Score)分数,以及原始图像与编辑图像之间的 Frechet Inception Distance (FID) 距离来评估。

有效性:通过每个样本中引发幻觉的平均问题数量来衡量。

当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架

下表展示了 GPT-4V、Gemini、Claude 和 LLaVA 等大模型在通过 AutoHallusion 生成的基准数据集上的表现。

当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架

以上就是当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/411859.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月6日 23:37:52
下一篇 2025年11月6日 23:39:25

相关推荐

  • 币圈入门必备的十大平台 新手常用的加密货币交易软件推荐

    市面上的加密货币交易所数量众多,功能各异,安全性、交易对、手续费以及用户体验都是衡量其优劣的重要标准。本篇文章旨在提供一份详尽的交易所排名与介绍,帮助读者更好地理解各个平台的特点,从而做出明智的选择。我们将深入探讨每个平台的优势与特色服务,力求呈现一个全面且客观的视角,以便您在数字资产的世界中稳健前…

    2025年12月11日 好文分享
    000
  • 什么是阿尔法(Alpha)?新用户如何参与or能参与吗?小白入门篇

    阿尔法在加密领域表现为未公开项目信息、早期参与资格、独特市场分析及低流动性潜力资产。通过关注行业研究员、设置关键词提醒、研读项目文档并交叉验证信息,可从社交媒体获取线索;积极参与官方社群、贡献价值、参加活动并与核心成员建立联系,能深入接触一手资讯;利用Nansen、Dune等工具监控大额地址、追踪聪…

    2025年12月11日
    000
  • 怎么学习ZK领域_用户应该怎么从零建立密码学认知

    学习ZK需先掌握密码学基础,理解零知识证明的三大特性,熟悉SNARKs与STARKs架构,通过circom和snarkjs实践电路设计与链上验证,并参与开源项目以深化工程认知。 Binance币安 欧易OKX ️ Huobi火币️ 学习ZK领域需要系统性地建立密码学基础,理解零知识证明的核心逻辑与应…

    2025年12月11日
    000
  • 三大主流交易所入口导航 币安火币OKXAPP快速安装指南

    三大主流交易所入口导航 币安火币 OKX APP 快速安装指南 币安 binance、火币 huobi、okx 欧易 是当前全球范围内使用最广的三大数字资产交易平台,提供现货、合约、理财、web3 工具等多维服务。三家均支持 btc、eth、usdt、sol、trx 等主流币种,并在安全体系、风控机…

    好文分享 2025年12月11日
    000
  • 火币交易所国际服入口 火币v3.6.3APP一键下载指南

    火币交易所国际服入口 火币 v3.6.3 APP 一键下载指南 huobi 火币国际版 是面向全球用户的综合型数字资产服务平台,支持 btc、eth、usdt、trx、ltc 等主流币种,提供现货、合约、理财 earn、策略交易等多维度功能。平台稳定性强,风控体系成熟。本篇将为你提供 火币国际服官网…

    好文分享 2025年12月11日
    000
  • 币安OKX火币移动端入口 三平台账户注册与安全下载指引

    币安 OKX 火币移动端入口 三平台账户注册与安全下载指引 binance 币安、okx 欧易、huobi 火币 作为全球范围内最具代表性的三大数字资产交易平台,覆盖现货、合约、earn 理财、web3 工具等核心功能服务。三家平台均支持 btc、eth、usdt、sol、trx 等主流币种,并具备…

    好文分享 2025年12月11日
    000
  • 欧易APP最新入口 欧易热门稳定版v6.148.4APP安装全过程

    欧易APP最新入口 欧易热门稳定版v6.148.4APP安装全过程 okx 欧易 作为行业内长期稳定运营的全球化数字资产交易平台,提供现货、合约、web3 入口、earn 理财、多链钱 包等一体化服务。平台支持 btc、eth、sol、usdt、ton 等主流币种,并具备严格的安全体系与完善的资产隔…

    好文分享 2025年12月11日
    000
  • 火币官方APP正版入口 火币热门体验版v3.7.1安卓端安装指南

    火币官方APP正版入口 火币热门体验版v3.7.1安卓端安装指南 huobi 火币 是专注于全球用户的数字资产综合服务平台,提供现货交易、衍生品交易、资产管理与多链钱 包等多种区块链应用能力。平台支持 btc、eth、doge、usdt、trx 等主流资产,并通过多重权限体系与安全隔离措施增强用户账…

    好文分享 2025年12月11日
    000
  • 欧易OKX全球站入口 欧易热门v6.148.2APP官方安装指引

    欧易OKX全球站入口 欧易热门v6.148.2APP官方安装指引 okx 欧易 是面向全球用户的数字资产综合交易平台,涵盖现货、合约、web3 钱 包、earn 理财、多链生态等核心能力。平台对 btc、eth、sol、usdt、ton 等主流资产均提供稳定的市场深度,同时具备严谨的安全架构、资产隔…

    好文分享 2025年12月11日
    000
  • 欧易OKX手机版入口 欧易热门性能版v6.147.4APP安装教程

    欧易OKX手机版入口 欧易热门性能版v6.147.4APP安装教程 okx 欧易 是全球领先的数字资产综合交易平台,为用户提供现货、合约、web3 钱 包、earn 理财、多链生态等核心服务。平台支持 btc、eth、sol、usdt、ton 等主流币种,并采用银行级安全架构、冷热钱 包隔离与多重风…

    好文分享 2025年12月11日
    000
  • 如何看懂链上安全事件_用户应该怎么跟踪官方调查结果

    用户可通过官方公告、安全公司报告及链上%ignore_a_1%交叉验证事件。首先查看项目官网与社交账号的声明,获取攻击时间与受损地址;其次查阅CertiK、慢雾等机构的技术分析报告,了解攻击路径与资金流向;再通过Etherscan等浏览器核实合约交易记录,并用欧科云链、Nansen等工具监控黑客地址…

    2025年12月11日
    000
  • 虚拟币专用软件有哪些 2026虚拟币专用软件top10推荐

    随着数字资产市场的不断成熟,选择一款安全可靠的专用软件至关重要。本文为您展望并推荐2026年值得关注的十大虚拟币软件,涵盖资产管理、交易和数据分析等领域,旨在帮助您更高效、安全地管理数字财富。 一、综合交易平台类 1、Binance:作为全球领先的数字资产交易平台,提供丰富的交易对和金融衍生品。其深…

    2025年12月11日
    000
  • 欧易APP官方正版下载 欧易移动端v6.143.6账户开通指南

    欧易 APP 官方正版下载 欧易移动端 v6.143.6 账户开通指南 okx 欧易 是全球领先的数字资产综合交易平台,覆盖现货、永续合约、web3 钱 包及多元化资产管理功能。平台支持 btc、eth、sol、usdt、ton 等主流币种,系统稳定,安全可靠。本篇将为你提供 欧易官方正版 app …

    好文分享 2025年12月11日
    000
  • 火币交易所官网入口 火币官方APP最新版v3.5.4下载指南

    火币交易所官网入口 火币官方 APP 最新版 v3.5.4 下载指南 huobi 火币 是全球知名的数字资产交易平台,涵盖现货、合约、理财、策略交易等多种服务,支持 btc、eth、usdt、trx 等主流资产。平台注重安全性、风控体系及稳定性,为用户提供优质交易体验。本篇将为你提供 火币官网入口,…

    好文分享 2025年12月11日
    000
  • 火币Huobi官方地址入口 火币国际版v3.6.1APP安装教程

    火币 Huobi 官方地址入口 火币国际版 v3.6.1 APP 安装教程 huobi 火币国际版 是面向全球用户的综合型数字资产交易平台,提供现货、合约、理财等多种服务,支持 btc、eth、trx、usdt 等主流币种。其系统稳定、安全机制完备,非常适合希望以专业方式管理加密资产的用户。以下内容…

    好文分享 2025年12月11日
    000
  • 多链充值是什么_新手应该怎么避免充错链导致资产损失

    多链充值需选择与收款方一致的区块链网络,如USDT支持ERC20、TRC20、BEP20等不同链,各链互不相通。1、确认目标平台支持的网络类型,核对充值地址标注的链名。2、转账前检查钱 包当前网络是否匹配,如向TRC20地址充值须切换至TRON网络。3、通过地址格式辅助判断:以“0x”开头多为ERC…

    2025年12月11日
    000
  • 3分钟了解币安人生(BINANCELIFE)是什么?它是如何运作的?值得购买吗?

    币安人生(BINANCELIFE)是基于BSC的NFT数字藏品,1、以唯一标识符确保所有权;2、通过智能合约发行,用户购盲盒获随机NFT;3、设计融合加密文化,具社区共鸣;4、稀有度与流动性影响价值,需综合项目背景与个人风险判断。 币安人生(binancelife)是一种在币安智能链上发行的数字藏品…

    2025年12月11日
    000
  • 什么是稳定币_为什么稳定币成为加密交易基础资产

    稳定币是锚定法定货币或资产的数字货币,通过1:1储备机制保持价值稳定,主要类型包括法币抵押型(如USDT)、加密资产抵押型(如DAI)、算法型和商品锚定型(如XAUT),其中法币抵押型占市场主导。在加密交易中,稳定币作为核心结算工具,超90%比特币交易以其结算,形成“加密美元本位”;同时在市场波动时…

    2025年12月11日
    000
  • 什么是强势币_投资者应该怎么挑选强势板块提高胜率

    强势币源于真实增长与共识,筛选需结合链上数据、机构动向、技术进展与市场情绪。应重点关注活跃地址增长、鲸鱼持仓变化、开发者活动及社交热度等核心指标。 Binance币安 欧易OKX ️ Huobi火币️ 一、理解强势币的核心特征 强势币通常指在特定市场周期内,价格表现显著优于大盘的加密资产。其上涨动力…

    2025年12月11日
    000
  • LP做市是什么_用户应该怎么理解LP承担的无常损失风险

    无常损失是LP因市场价格变动导致资产价值低于持有价值的差额,源于AMM机制的恒定乘积公式;当价格偏离越大,损失越高,例如ETH从1500美元涨至3000美元(Δ=2),按IL = 1 – (2√Δ)/(1+Δ)计算,损失约5.7%;可通过选择稳定币对、获取手续费收益及参与激励计划来减轻影…

    2025年12月11日
    000

发表回复

登录后才能评论
关注微信