工程_第14页

从想太多到想不透？DeepSeek-R1等长推理模型也存在「思考不足」问题

腾讯ai lab联合苏州大学、上海交通大学团队的研究揭示了长推理模型的“思考不足”现象，并提出了一种改进方法。这项研究发表于arxiv，通讯作者为腾讯专家研究员涂兆鹏。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 研究发现，类似OpenA…

程序猿

2025年11月1日 • 科技

0000

首个基于统计学的线性注意力机制ToST，高分拿下ICLR Spotlight

加州大学伯克利分校吴梓阳博士及其团队提出了一种新型transformer架构——token statistics transformer (tost)，其核心是线性时间复杂度的注意力机制。这项研究成果已发表在iclr 2025，并被选为spotlight论文。马毅教授将在今年四月iclr大会上进行主…

程序猿

2025年11月1日 • 科技

0000

撞车DeepSeek NSA，Kimi杨植麟署名的新注意力架构MoBA发布，代码也公开

月之暗面发布moba注意力机制，高效处理超长文本！近日，月之暗面团队公开了一种名为moba（mixture of block attention，块注意力混合）的全新注意力机制，该机制巧妙地将混合专家（moe）原理应用于注意力机制，并在长文本处理方面展现出显著优势。这与deepseek同期发布的ns…

程序猿

2025年11月1日 • 科技

0000

视频版IC-Light来了！Light-A-Video提出渐进式光照融合，免训练一键视频重打光

上海交大、中科大及上海人工智能实验室团队研发出无需训练的视频重打光技术light-a-video，该技术突破了传统方法的高训练成本和数据稀缺瓶颈，实现了零样本视频重打光。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ Light-A-Vid…

程序猿

2025年11月1日 • 科技

0000

DeepSeek R1也会大脑过载？过度思考后性能下降，少琢磨让计算成本直降43％

大型语言模型（llm）在执行任务时也可能面临“过度思考”的困境，导致效率低下甚至失败。近期，来自加州大学伯克利分校、uiuc、eth zurich 和 cmu 等机构的研究人员对这一现象进行了深入研究，并发表了题为《过度思考的危险：考察代理任务中的推理-行动困境》的论文（论文链接：https://w…

程序猿

2025年11月1日 • 科技

0000

将越狱问题转换为求解逻辑推理题：「滥用」推理能力让LLM实现自我越狱

北京航空航天大学、360 ai 安全实验室、新加坡国立大学和南洋理工大学的研究团队联合发布了一项关于大型语言模型（llms）安全性的重要研究成果。该研究提出了一种名为“推理增强对话”（race）的新型多轮攻击框架，能够有效突破llms的安全对齐机制。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜…

程序猿

2025年11月1日 • 科技

0000

ICRA 2025｜清华x光轮：自驾世界模型生成和理解事故场景

aixiv专栏持续报道全球顶尖ai研究成果，已收录2000余篇来自高校和企业实验室的学术技术文章，助力学术交流与传播。欢迎投稿或联系报道，邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, …

程序猿

2025年11月1日 • 科技

0000

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

华中科技大学、字节跳动和香港大学联合团队研发了一种名为liquid的极简统一多模态生成框架，该框架无需复杂的外部视觉模块，即可实现图像生成和理解。liquid巧妙地利用vqgan将图像编码为离散视觉token，并将其与文本token整合到同一词表空间，从而使现有的大型语言模型(llm)能够直接处理视…

程序猿

2025年11月1日 • 科技

0000

上海AI Lab最新推出Mixture-of-Memories：线性注意力也有稀疏记忆了

aixiv专栏：探索mom：混合记忆模型，兼顾强大的记忆扩展能力和低序列复杂度 AIxiv专栏持续关注并报道全球顶尖AI学术研究和技术进展，至今已发布超过2000篇高质量文章。欢迎投稿或联系报道：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com 回…

程序猿

2025年11月1日 • 科技

0000