苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

苹果悄然进军大模型领域,其最新多模态模型ferret-ui或将改变游戏规则?| 编译:赖文昕

大模型技术引爆科技圈,巨头与新兴企业展开激烈角逐。OpenAI、Anthropic和Mistral等新秀的崛起,证明了在大模型时代,传统巨头并非占据绝对优势。

近期,苹果叫停了耗资数十亿美元、历时十余年的自动驾驶项目,并裁减了美国总部600多名员工,另有近2000名员工转投AI部门。然而,在主流智能手机厂商中,苹果却迟迟未推出自研大模型,这与以往的领先地位形成鲜明对比。

4月8日,苹果发布了名为“Ferret-UI”的新研究成果,这是一个能够理解并执行手机屏幕任务的多模态模型。该模型专为增强对移动端UI的理解而设计,具备引用、定位和推理功能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

论文链接:https://www.php.cn/link/6d16b39c4bdd5c238d55ea70055b4846

六个月前,苹果与哥伦比亚大学合作发布了多模态大模型“Ferret”,展现出强大的图文关联能力。“Ferret-UI”则更专注于移动端应用和用户交互。

研究团队表示,Ferret-UI能够有效理解和交互用户界面(UI),弥补了现有通用多模态大模型的不足。

UI任务性能超越GPT-4V

Ferret-UI的亮点在于其对UI的专注。苹果团队对比了Ferret-UI-base、Ferret-UI-anyres、Ferret和GPT-4V在各种UI任务上的表现,并在高级任务中加入了开源模型Fuyu和CogAgent进行对比。

在基础UI任务测试中,Ferret-UI在大多数任务上表现出色,尤其是在与iPhone相关的任务中,除了“查找文本”任务外,它全面超越了Ferret和GPT-4V。

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

在OCR、图标识别和控件分类等任务上,Ferret-UI的平均准确率分别达到72.9%、82.4%和81.4%,远高于GPT-4V的47.6%、61.3%和37.7%。在安卓任务中,GPT-4V的性能显著下降,尤其是在定位任务上,这可能是由于安卓UI元素更小、更密集造成的。

值得注意的是,在OCR任务中,模型预测的是目标区域旁的文本,而非目标区域内的文本。Ferret-UI能够准确预测部分被遮挡的文本,即使OCR模型返回错误文本也能做到。

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

在查找文本、图标和控件等定位任务中,Ferret-UI同样表现优异。在高级UI任务(如详细描述、感知对话、交互对话和功能推断)中,Ferret-UI与GPT-4V不相上下,甚至在某些任务上超越了后者。与开源模型Fuyu和CogAgent相比,Ferret-UI在大多数任务上均取得领先,尤其是在iPhone平台上优势明显。

百灵大模型 百灵大模型

蚂蚁集团自研的多模态AI大模型系列

百灵大模型 177 查看详情 百灵大模型

尽管训练数据中未包含安卓数据,Ferret-UI在安卓平台上的高级任务中也展现出不错的性能,表明其具有跨操作系统UI知识迁移能力。

Anyres技术解决屏幕长宽比差异难题

Ferret-UI的成功离不开“任何分辨率”(anyres)技术的创新。这项技术旨在解决移动设备屏幕长宽比多样化的问题。

Ferret-UI-anyres在Ferret-UI-base的基础上,增加了额外的细粒度图像特征,包括预训练图像编码器和投影层,用于生成整个屏幕的图像特征。

对于每个基于原始图像长宽比获得的子图像,都会生成额外的图像特征;对于具有区域引用的文本,视觉采样器会生成相应的区域连续特征。大型语言模型(LLM)使用全图表示、子图表示、区域特征和文本嵌入来生成响应。

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

Ferret-UI-anyres架构

传统模型通常需要固定大小的输入,而移动设备屏幕大小和长宽比各异,anyres技术通过将屏幕分割成多个子图像,并对每个子图像进行放大来捕捉更多细节,从而适应不同屏幕尺寸。

这种方法不仅适用于不同长宽比的屏幕,还提高了模型对UI元素细节的识别能力,能够突出显示屏幕上的小型对象,如图标和文本,从而提高识别和定位精度。

苹果团队采用分层实验方法,从简单到复杂逐步提升模型能力,从基础的识别和分类任务开始,逐步过渡到需要更高层次理解的对话和推断任务,最终使其能够处理复杂的UI交互。

从基础的识别和分类到高级的描述和推断,Ferret-UI能够在真实世界的UI交互中提供准确有效的响应。结合anyres技术处理不同分辨率的屏幕,进一步增强了其有效性和用户体验。

结语

在大模型竞争激烈的环境下,科技巨头需要不断调整战略和产品布局。苹果的Ferret-UI、Ferret以及旨在改善语音助手交互的ReALM,都显示出苹果在大模型领域的持续投入。Ferret-UI能否推动iPhone引入AI,并帮助苹果重回领先地位,值得期待。

以上就是苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/366530.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月6日 05:32:19
下一篇 2025年11月6日 05:34:48

相关推荐

  • 小众协议逆势暴涨,Memecoin背后是否藏着新的叙事密码?

    近期市场波动之中,一些小众协议和Memecoin展现出惊人的逆势上涨势头,引发了广泛关注。本文将深入探讨这一现象,剖析其背后的驱动因素,并尝试解读其中可能蕴含的“新叙事密码”,分析这些资产为何能在当前环境下脱颖而出,以及其背后所反映的市场情绪和资本流向变化。 2025主流加密货币交易所官网注册地址推…

    2025年12月11日
    000
  • 佩佩托:青蛙之神投资代币指南

    深入了解佩佩托(pepeto,简称 pepeto),这个以青蛙形象为核心、融合迷因文化与 web3 技术的创新代币。本文将带你探索其质押机制、零手续费交易特性,以及它如何挑战主流迷因币巨头的地位。 Pepeto:你的投资指南,“蛙神”深度剖析 别再追逐一时热度;Pepeto(PEPETO)正在稳步崛…

    2025年12月11日
    000
  • OP代币价格预测:牛市信号浮现?

    op 代币即将迎来牛市?最新技术分析与市场趋势暗示潜在突破。让我们一起探究最新的预测动态。 OP 代币价格展望:是否出现牛市信号? OP 代币正展现出新的活力!随着潜在的上行形态逐步形成,牛市是否正在临近?本文将为你解析 OP 的最新走势与前景,带来不可忽视的关键信息。 技术面释放突破迹象 ZAYK…

    2025年12月11日
    000
  • 以太坊价格:ETH 能否达到 4,400 美元、10,000 美元甚至 35,000 美元?

    以太坊的价格预测观点各异,从保守的4,400美元到乐观的35,000美元不等。这些预测背后的原因是什么?以太坊是否具备实现这些目标的潜力? 曾经被视为比特币附属品的以太坊(ETH),如今正在成为焦点。价格预期跨度巨大,从4,400美元到35,000美元不等。我们来分析一下支撑这些看涨预期的背后因素。…

    2025年12月11日
    000
  • MoonBull的模因币狂热:交易量激增与专属白名单

    moonbull($mobu)以其独特的白名单机制和奖励模式,在竞争激烈的模因币市场中脱颖而出。它会是2025年值得关注的最佳加密货币吗? MoonBull是一款新兴的模因币,因其在早期访问权和社区激励方面的创新做法而受到广泛关注。与传统公开发行方式不同,MoonBull采用“先白名单后开放”的策略…

    2025年12月11日
    000
  • Coinbase、DeFi 代币与交易量:有何热议?

    探索coinbase、defi代币与交易量的动态变化,揭示加密货币领域发展的关键趋势和洞察。alt季节已经到来! Coinbase、DeFi代币与交易量:有哪些值得关注的动向? 随着比特币主导地位逐渐减弱,Coinbase正积极引入DeFi代币,从而引发交易量的新一轮波动。Alt季节正式开启,朋友们…

    2025年12月11日
    000
  • PENGU起飞:Coinbase头像引发模因币狂热

    coinbase 对 pudgy penguins 的含蓄提及,意外掀起了一股围绕 solana 模因币 pengu 的热潮。这究竟是短暂的炒作,还是预示着 pengu 将真正站稳脚跟?我们一起来看看! PENGU 飞升:Coinbase 头像引爆模因币狂潮 加密世界瞬息万变,有时候一个简单的头像就…

    2025年12月11日
    000
  • 卡尔达诺价格:ADA会在2025年第四季度飙升至新高吗?

    cardano (ada) 在技术面、生态信心及战略动向的多重驱动下,有望于 2025 年第四季度迎来价格飞跃。 Cardano 价格:2025 年 Q4 ADA 是否将刷新历史高点? 随着 2025 年最后一个季度的到来,Cardano(ADA)展现出价格上涨的可能性。近期市场动态与关键决策预示着…

    2025年12月11日
    000
  • Kaspa矿机:KAS价格能否突破0.09美元?短期展望

    kaspa(kas)近期出现15%的上涨,显示出复苏迹象。这是真正的突破还是假突破?我们深入分析kas价格走势、短期前景以及对投资者的意义。 Kaspa强势反弹:KAS价格能否突破0.09美元?短期展望 Kaspa最近动作频频,大家都在问:它还能继续上涨吗?在最近一次15%的上涨之后,所有人都在关注…

    2025年12月11日
    000
  • Omni Network(OMNI):飙升收益还是风险投资?

    omni network近期价格大幅上涨,引发了市场热议。它究竟是值得入手的潜力资产,还是又一次短暂的泡沫?我们来一探究竟。 Omni Network(OMNI)最近价格飙升了108%,在加密圈掀起了不小波澜。这个项目是2025年推出的Layer 1区块链,目标是整合以太坊rollup生态。但它是真…

    2025年12月11日
    000
  • XLM价格上涨:Stellar是否在追随XRP的看涨走势?

    stellar(xlm)展现出明显的看涨信号,走势与xrp近期的强势上涨颇为相似。一次关键的技术突破暗示其价格可能迎来高达97%的涨幅。xlm是否能持续保持这种上升动能,成为市场关注焦点。 XLM价格上涨:Stellar是否会延续XRP的强势行情? Stellar(XLM)正逐渐吸引交易者的目光,市…

    2025年12月11日
    000
  • DDC股票随Animoca Brands比特币合作飙升:企业国库的新时代?

    ddc 股票因与 animoca brands 签署 1 亿美元比特币合作引发市场热议。这是否预示着企业资金管理的新方向?我们一起来分析。 DDC 股价异动,与 Animoca Brands 的比特币合作能否引领企业金融新趋势? 随着 DDC Enterprise Limited(DDC)正式宣布与…

    2025年12月11日
    000
  • SEI价格看涨形态:上升趋势动能增强!

    sei 价格突破关键阻力,生态进展与战略合作助力上涨。这是否预示着主升浪的开启? SEI 价格呈现看涨格局:上涨动力逐步增强! SEI 正在加速启动!受生态系统迅速扩展和战略整合的推动,SEI 代币展现出明显的上升趋势。这波上涨是否会持续展开? 结束长期积累,迎来关键突破 SEI 已摆脱长达数月的整…

    2025年12月11日
    000
  • Coinbase、Opyn 和 Onchain Markets:迈向 DeFi 未来的大胆一步

    coinbase战略吸纳opyn核心人才,深化链上市场布局,强化defi实力,展现对加密行业长期发展的坚定信心。 Coinbase、Opyn与链上市场:通向DeFi未来的关键跃进 Coinbase近日引入了Opyn的核心管理团队,此举标志着其在链上交易市场和去中心化金融(DeFi)领域迈出的重要步伐…

    2025年12月11日
    000
  • 比特币和以太坊价格预测:我们正在奔向月球吗?

    比特币再创历史新高,以太坊也迎来反弹,价格飙升的预测不断涌现。这是加密市场进入狂热周期的信号,还是新一轮牛市的开端? 比特币与以太坊价格展望:我们是否正迈向新高峰? 比特币和以太坊因屡创新高的价格和乐观的前景预测频频引发关注。加密资产是否正在步入一个全新的发展阶段?让我们深入分析。 比特币冲破历史纪…

    2025年12月11日
    000
  • Worldcoin的疯狂之旅:趋势线、突破与阿尔特曼效应

    worldcoin($wld)近期价格大幅上涨,伴随合作进展与监管审查同步进行,引发了市场广泛关注。我们一起来分析这一轮行情的动因、关键突破点以及未来可能的发展方向。 Worldcoin($WLD)正迎来一波强势拉升!在价格波动加剧、新合作消息频出及监管压力上升的背景下,当前市场动态值得关注。让我们…

    2025年12月11日
    000
  • ERA代币发布:Caldera基金会空投引发社区热潮

    caldera基金会正式推出其原生代币$era,并启动社区空投计划,目标是增强其区块链生态系统的活跃度与治理参与度。 围绕Caldera基金会最新推出的$ERA代币及其社区空投活动的讨论持续升温。此次代币发行不仅是为了回馈早期用户,更是为了激励更多人加入并共同塑造其区块链网络的未来发展方向。 $ER…

    2025年12月11日
    000
  • Tether、USDT与区块链:一场精心策划的撤退与十亿美元的铸币

    tether 战略性地停止支持部分旧区块链上的 usdt,与此同时 tron 上却出现了价值 10 亿美元的 usdt 铸造事件,这标志着稳定币流动性及区块链主导格局正在发生深刻变化。 Tether、USDT 与区块链:一次有序的撤离与十亿美元铸造的背后 在不断演化的加密货币世界中,稳定币扮演着至关…

    2025年12月11日
    000
  • Shytoshi Kusama、SHIB 与 AI 推文:解码未来

    shytoshi kusama 暗示 shiba inu 即将整合人工智能。深度解析“jul-ai”计划、潜在影响及 shib 的回归雄心 Shytoshi Kusama 与 AI 推文:揭示 SHIB 发展新方向 近期,Shytoshi Kusama 在社交媒体平台 X 上发布的内容再度引发热议,…

    2025年12月11日
    000
  • NFT 代币、PENGU 和交易量:NFT 的新时代?

    探索nft代币的演变格局、pengu的崛起与交易量变化:是市场调整,还是未来趋势的预兆? NFT的世界从不缺乏精彩,尤其是在模因币(meme coin)加入战局之后。让我们深入看看NFT代币、$PENGU以及交易量方面的最新动态。这将是一段令人振奋的旅程,请系好安全带! PENGU起飞:引领潮流的模…

    2025年12月11日
    000

发表回复

登录后才能评论
关注微信