llama

  • 释放绝佳的编程资源,巨型模型和智能体将引发更强劲的力量

    正如瑞斯福兹魔杖缔造了诸如邓布利多在内的历代非凡魔法师的传奇,具有巨大潜能的传统大型语言模型,在经过代码语料的预训练 / 精调后,掌握了更超出本源的执行力。 具体来说,进阶版的大模型在编写代码、更强推理、自主援引执行接口、自主完善等方面都获得了提升,这将为它作为 AI 智能体、执行下游任务时方方面面…

    2025年11月26日 科技
    000
  • ​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度

    当前大语言模型的应用受到了序列长度限制的制约,这限制了其在人工智能领域中的应用。例如,在多轮对话、长文本理解和多模态数据处理与生成方面存在一定的挑战。造成这种限制的根本原因是目前大语言模型普遍采用的Transformer架构,其计算复杂度与序列长度呈二次关系。因此,随着序列长度的增加,计算资源的需求…

    2025年11月26日 科技
    000
  • Oracle发布云端AI服务,协助企业实施和优化语言模型

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 数据库巨头Oracle最近发布了Oracle Cloud Infrastructure Generative AI服务,并引入了一系列创新技术,为大型企业提供了最新的生成式AI技术成果的利用机会…

    2025年11月26日
    000
  • 无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

    无注意力大模型eagle7b:基于rwkv,推理成本降低10-100 倍 小艺 华为公司推出的AI智能助手 549 查看详情 在AI赛道中,小模型近来备受瞩目,相较于拥有上千亿参数的模型。例如,法国AI初创公司发布的Mistral-7B模型在每个基准测试中都表现优于Llama 2 13B,并且在代码…

    2025年11月26日 科技
    000
  • 三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5

    该团队的新模型在多个基准测试中都与 Gemini Pro 、GPT-3.5 相媲美。 如果你经常读 AI 大模型方向的论文,Yi Tay 想必是一个熟悉的名字。作为前谷歌大脑高级研究科学家,Yi Tay 为许多知名的大型语言模型和多模态模型做出了贡献,包括 PaLM、UL2、Flan-U-PaLM、…

    2025年11月26日 科技
    100
  • Meta无限长文本大模型来了:参数仅7B,已开源

    谷歌之后,Meta 也来卷无限长上下文。 transformers的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力力和状态空间模型等次二次解决方案,但从以往经验来看,它们在预训练效率和下游任务准确性方面表现不佳。 近日,谷歌提出的Infini-Transformer引入了有效…

    2025年11月26日 科技
    000
  • 新测试基准发布,最强开源Llama 3尴尬了

    如果试题太简单,学霸和学渣都能考90分,拉不开差距…… 随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。 大模型竞技场背后组织LMSYS推出下一代基准测试Arena-Hard,引起广泛关注。 Llama 3的两个指令微调版本实力到底如何,…

    2025年11月26日 科技
    000
  • 微软发布Phi-3,性能超Llama-3,可手机端运行

    数据已成为提升大模型能力的重点。 Llama-3 刚发布没多久,竞争对手就来了,而且是可以在手机上运行的小体量模型。 本周二,微软发布了自研小尺寸模型 Phi-3。 新模型有三个版本,其中 Phi-3 mini 是一个拥有 38 亿参数的语言模型,经过 3.3 万亿 token 的训练,其整体性能在…

    2025年11月26日 科技
    000
  • Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航&ETH

    大模型力大砖飞,让llama3演绎出了新高度: 经过超大规模预训练的15T+ Token数据上,已实现了令人印象深刻的性能提升,也因远超Chinchilla推荐量再次引爆开源社区讨论。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 与此同时…

    2025年11月26日 科技
    100
  • 阿里智能体“组装工厂”开源!0经验搞定上万Agent并发

    让多智能体开发就像搭积木,阿里巴巴通义实验室开源多智能体编程框架与开发平台agentscope。 该平台专门为多智能体应用开发者打造,旨在提供高易用的编程体验、稳定可靠的运行时保障,并且为开发者提供了分布式和多模态的技术支持。 内置了OpenAI、DashScope、Gemini、Ollama等多种…

    2025年11月26日 科技
    100
关注微信