工程
-
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
偷懒才能更好地工作。 Llama 3.1 刚刚发布,你是否已经尝试了呢?就算你的个人计算机是最近的顶尖配置,运行其中最小的 8B 版本可能也依然会有明显延迟。为了提升模型的推理效率,研究者想出了多种多样的方法,但其中很多都会让模型牺牲一些准确度。 近日,苹果和 Meta AI 的一个研究团队提出了一…
-
70倍极致压缩!大模型的检查点再多也不怕
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@ji…
-
小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++
在当前 ai 领域,大语言模型采用的主流架构是 transformer。不过,随着 rwkv、mamba 等架构的陆续问世,出现了一个很明显的趋势:在语言建模困惑度方面与 transformer 较量的循环大语言模型正在快速进入人们的视线。 令人兴奋的是,这些架构在推理期间使用了恒定量的内存。不过,…
-
八问八答搞懂Transformer内部运作原理
七年前,论文《attention is all you need》提出了 transformer 架构,颠覆了整个深度学习领域。 如今,各家大模型都以 transformer 架构为基础,但 transformer 内部运作原理,仍是一个未解之谜。 去年,transformer 论文作者之一 Lli…
-
从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制
aixiv专栏是本站发布学术、技术内容的栏目。过去数年,本站aixiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@ji…
-
揭秘提示词压缩技术
提示工程是一种在机器学习模型,尤其是预训练语言模型中,通过精心设计输入提示(prompt)来引导模型输出期望结果的技术。在大语言模型的使用中,提示词通常是一段文本,用来引导模型生成特定的输出或完成特定的任务。在多文档搜索、问答系统、文档自动摘要生成以及阅读理解等多样化且复杂的应用场景中,往往会面临输…
-
又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢…
-
重塑跨智能体灵巧手抓取,NUS邵林团队提出全新交互式表征,斩获CoRL Workshop最佳机器人论文奖
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢…
-
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA
小米新一代kaldi团队在语音识别领域取得重大突破!其论文《cr-ctc: consistency regularization on ctc for improved speech recognition》已被iclr 2025接收。该论文提出了一种名为cr-ctc的新方法,显著提升了纯ctc语音…
-
真假难辨!阿里升级AI人像视频生成,表情动作直逼专业水准
阿里巴巴通义实验室的最新研究成果emo2,实现了仅需一张肖像照片和任意长度音频,即可生成高度逼真、感染力十足的ai人像视频。该技术突破了以往音频驱动人像视频生成在动作流畅度和表现力上的局限,为虚拟主播、数字人等领域带来革新。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 De…