llama_第12页_创想鸟

释放绝佳的编程资源，巨型模型和智能体将引发更强劲的力量

正如瑞斯福兹魔杖缔造了诸如邓布利多在内的历代非凡魔法师的传奇，具有巨大潜能的传统大型语言模型，在经过代码语料的预训练 / 精调后，掌握了更超出本源的执行力。具体来说，进阶版的大模型在编写代码、更强推理、自主援引执行接口、自主完善等方面都获得了提升，这将为它作为 AI 智能体、执行下游任务时方方面面…

程序猿

2025年11月26日 • 用户投稿

0000

新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

当前大语言模型的应用受到了序列长度限制的制约，这限制了其在人工智能领域中的应用。例如，在多轮对话、长文本理解和多模态数据处理与生成方面存在一定的挑战。造成这种限制的根本原因是目前大语言模型普遍采用的Transformer架构，其计算复杂度与序列长度呈二次关系。因此，随着序列长度的增加，计算资源的需求…

程序猿

2025年11月26日 • 用户投稿

0000

用户投稿

Oracle发布云端AI服务，协助企业实施和优化语言模型

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 数据库巨头Oracle最近发布了Oracle Cloud Infrastructure Generative AI服务，并引入了一系列创新技术，为大型企业提供了最新的生成式AI技术成果的利用机会…

程序猿

2025年11月26日

2000

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

无注意力大模型eagle7b：基于rwkv，推理成本降低10-100 倍小艺华为公司推出的AI智能助手 549 查看详情在AI赛道中，小模型近来备受瞩目，相较于拥有上千亿参数的模型。例如，法国AI初创公司发布的Mistral-7B模型在每个基准测试中都表现优于Llama 2 13B，并且在代码…

程序猿

2025年11月26日 • 用户投稿

0000

三年16篇一作，前谷歌研究科学家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5

该团队的新模型在多个基准测试中都与 Gemini Pro 、GPT-3.5 相媲美。如果你经常读 AI 大模型方向的论文，Yi Tay 想必是一个熟悉的名字。作为前谷歌大脑高级研究科学家，Yi Tay 为许多知名的大型语言模型和多模态模型做出了贡献，包括 PaLM、UL2、Flan-U-PaLM、…

程序猿

2025年11月26日 • 用户投稿

1000

Meta无限长文本大模型来了：参数仅7B，已开源

谷歌之后，Meta 也来卷无限长上下文。 transformers的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力力和状态空间模型等次二次解决方案，但从以往经验来看，它们在预训练效率和下游任务准确性方面表现不佳。近日，谷歌提出的Infini-Transformer引入了有效…

程序猿

2025年11月26日 • 用户投稿

0000

新测试基准发布，最强开源Llama 3尴尬了

如果试题太简单，学霸和学渣都能考90分，拉不开差距…… 随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布，业界急需一款更难、更有区分度的基准测试。大模型竞技场背后组织LMSYS推出下一代基准测试Arena-Hard，引起广泛关注。 Llama 3的两个指令微调版本实力到底如何，…

程序猿

2025年11月26日 • 用户投稿

1000

微软发布Phi-3，性能超Llama-3，可手机端运行

数据已成为提升大模型能力的重点。 Llama-3 刚发布没多久，竞争对手就来了，而且是可以在手机上运行的小体量模型。本周二，微软发布了自研小尺寸模型 Phi-3。新模型有三个版本，其中 Phi-3 mini 是一个拥有 38 亿参数的语言模型，经过 3.3 万亿 token 的训练，其整体性能在…

程序猿

2025年11月26日 • 用户投稿

0000

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航&ETH

大模型力大砖飞，让llama3演绎出了新高度：经过超大规模预训练的15T+ Token数据上，已实现了令人印象深刻的性能提升，也因远超Chinchilla推荐量再次引爆开源社区讨论。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 与此同时…

程序猿

2025年11月26日 • 用户投稿

1000