能力
-
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API
强化学习(rl)结合真实搜索引擎可以显著提升大模型的检索和推理能力。然而,这一方法面临两大挑战:搜索引擎返回的文档质量不稳定,导致训练过程中的噪音和不稳定性;rl 训练需要频繁部署,产生大量 api 开销,限制了可扩展性。 针对这些问题,阿里通义实验室推出了开源解决方案 ZeroSearch,这是一…
-
全面评估多模态模型视频 OCR 能力,Gemini 准确率仅 73.7%
多模态大模型(mllm)在静态图像上已展现出强大的光学字符识别(ocr)能力,可以精准识别和理解图像中的文字内容。 不过,当应用范围扩展到动态视频时,即使是当下最先进的模型也遇到了巨大的难题。 MME-VideoOCR 致力于全面评估并促进 MLLM 在视频 OCR 方面的感知、理解和推理能力。 主…
-
美团提出首个语音交互 GUI 智能体,端到端语音训练能力优于传统文本训练
只需动动嘴,就能操控 gui 代理? 由美团与浙江大学联合推出的 GUIRoboTron-Speech——让你彻底解放双手,直接对设备“发号施令”。 这是首个可以直接通过语音指令和屏幕截图进行端到端(End-to-End)决策的自主 GUI 智能体,致力于为用户提供更自然、高效且无障碍的人机交互方式…
-
李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview 登顶
大模型的具身智能决策能力,终于有系统的通用评估基准了。 李飞飞吴佳俊团队新提出的评估框架,对具身智能决策的四项关键子能力来了个全面检查。 这套基准已经被选为了 NeurIPS 数据和测试集(D&B)专栏 Oral 论文,同时也被收录进了 PyPI,只要一行代码就能快速调用。 该框架名为Emb…
-
ChatGPT 桌面版新增超 30 款应用支持 旨在提升任务执行和协作能力
12 月 20 日,在 openai 举办的 “12 days of openai” 活动进入尾声之际,公司重点展示了 chatgpt 桌面版的重大功能改进。这一升级意味着 chatgpt 从简单的聊天机器人向高效 ai 智能体工具的转型,旨在提升在桌面环境中的任务执行和协作…