claude
-
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
让 LLM 在自我进化时也能保持对齐。 我们这个世界是不断变化的开放世界。人工智能要在这个世界长久立足,就需要突破许多限制,包括可用数据和规模和质量以及有用新信息的增长率。 对基于 LLM 的 AI 来说,高质量的人类数据非常关键,但已有研究预计这些高质量数据将在未来几年耗尽。 ☞☞☞AI 智能聊天…
-
杨笛一团队:一个弹窗,就能把AI智能体操控电脑整懵了
弹窗攻击很有效,控制计算机的智能体根本顶不住。 前些天,Anthropic 为 Claude 带来一个极具变革意义的功能:Computer Use,也就是控制用户的计算机。当时,Anthropic 在博客中写到:「在 OSWorld 这项测试模型使用计算机的能力的评估基准上,Claude 当前的准确…
-
当视觉大模型陷入认知失调,马里兰大学构建了一个幻觉自动生成框架
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢…
-
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
DeepSeek 又出手了,这次又是重磅炸弹。 昨晚,DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。 在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforc…
-
好东西!又来个播客界的谷歌NotebookLM,靠记笔记画脑图,月入近5万
ai好好用报道 编辑:Sia 这个 AI 科代表,可以领回家了。 听播客,尤其是时长几小时的硬核类节目,是件特别花时间的事情。 为了不听也能 get 到内容,今年 3 月,我们利用了大模型( AI 在用 | 有了这个超级提示和Claude 3,不听播客也能搞定节目内容 )。 但操作起来总归有些麻烦,…
-
32B 模型横扫 SWE 任务,这款代码智能体模型有点东西
(PHP中文网报道)2025年不仅是智能体全面爆发的一年,也是AI在软件工程领域开启新纪元的起点。以人工智能为核心的自动化开发正以前所未有的速度重塑传统开发模式。 昆仑万维今日正式发布全球首个开源代码智能体Skywork-SWE-32B,该模型通过“轻量化参数”实现仓库级别的修复逻辑重构。 这是一场…
-
GitHub推出Spark:AI驱动全栈开发,从创意到上线仅需几分钟!
近日,github正式推出了一款具有里程碑意义的开发工具——github spark,并宣布其公共预览版现已面向copilot pro +订阅用户开放。该工具声称可将“从创意构想到全栈ai应用部署”的整个流程压缩至几分钟内完成,有望彻底重塑传统软件开发模式。 GitHub Spark以“零门槛开发”…
-
遗憾不?原来百度2017年就研究过Scaling Law,连Anthropic CEO灵感都来自百度
原来早在 2017 年,百度就进行过 Scaling Law 的相关研究,并且通过实证研究验证了深度学习模型的泛化误差和模型大小随着训练集规模的增长而呈现出可预测的幂律 scaling 关系。只是,他们当时用的是 LSTM,而非 Transformer,也没有将相关发现命名为「Scaling Law…
-
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 当人工智能在大模型能力突破、推理能力提升以及多模态技术进步的推动下走向新阶段,“Agentic AI(代理型AI)”成为 2024 年以来 AI 领域的新晋热词,2025 年甚至被称为“AI 代…
-
OpenAI 30亿收购告吹 谷歌24亿截胡Windsurf
7月14日消息,据媒体报道,原本计划被openai以30亿美元收购的热门ai编程初创公司windsurf,周五突然宣布终止与openai的交易,转而与谷歌建立合作关系。 据报道,谷歌DeepMind正在积极招募Windsurf的首席执行官Varun Mohan、联合创始人Douglas Chen以及…