能力

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索 API

强化学习（rl）结合真实搜索引擎可以显著提升大模型的检索和推理能力。然而，这一方法面临两大挑战：搜索引擎返回的文档质量不稳定，导致训练过程中的噪音和不稳定性；rl 训练需要频繁部署，产生大量 api 开销，限制了可扩展性。针对这些问题，阿里通义实验室推出了开源解决方案 ZeroSearch，这是一…

程序猿
2025年11月17日 • 用户投稿
4000
全面评估多模态模型视频 OCR 能力，Gemini 准确率仅 73.7%

多模态大模型（mllm）在静态图像上已展现出强大的光学字符识别（ocr）能力，可以精准识别和理解图像中的文字内容。不过，当应用范围扩展到动态视频时，即使是当下最先进的模型也遇到了巨大的难题。 MME-VideoOCR 致力于全面评估并促进 MLLM 在视频 OCR 方面的感知、理解和推理能力。主…

程序猿
2025年11月17日 • 用户投稿
1000
美团提出首个语音交互 GUI 智能体，端到端语音训练能力优于传统文本训练

只需动动嘴，就能操控 gui 代理？由美团与浙江大学联合推出的 GUIRoboTron-Speech——让你彻底解放双手，直接对设备“发号施令”。这是首个可以直接通过语音指令和屏幕截图进行端到端（End-to-End）决策的自主 GUI 智能体，致力于为用户提供更自然、高效且无障碍的人机交互方式…

程序猿
2025年11月17日 • 用户投稿
0000
李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview 登顶

大模型的具身智能决策能力，终于有系统的通用评估基准了。李飞飞吴佳俊团队新提出的评估框架，对具身智能决策的四项关键子能力来了个全面检查。这套基准已经被选为了 NeurIPS 数据和测试集（D&B）专栏 Oral 论文，同时也被收录进了 PyPI，只要一行代码就能快速调用。该框架名为Emb…

程序猿
2025年11月7日 • 用户投稿
1000
用户投稿

ChatGPT 桌面版新增超 30 款应用支持旨在提升任务执行和协作能力

12 月 20 日，在 openai 举办的 “12 days of openai” 活动进入尾声之际，公司重点展示了 chatgpt 桌面版的重大功能改进。这一升级意味着 chatgpt 从简单的聊天机器人向高效 ai 智能体工具的转型，旨在提升在桌面环境中的任务执行和协作…

程序猿
2025年11月7日
1000

关注微信