llama_第24页_创想鸟

田渊栋团队新研究：微调

在大家不断升级迭代自家大模型的时候，LLM（大语言模型）对上下文窗口的处理能力，也成为一个重要评估指标。比如 OpenAI 的 gpt-3.5-turbo 提供 16k token 的上下文窗口选项，AnthropicAI 的更是将 Claude 处理 token 能力提升到 100k。大模型处理…

程序猿

2025年11月9日 • 用户投稿

1000

字节团队提出猞猁Lynx模型：多模态LLMs理解认知生成类榜单SoTA

当前大语言模型 (Large Language Models, LLMs) 如 GPT4 在遵循给定图像的开放式指令方面表现出了出色的多模态能力。然而，这些模型的性能严重依赖于对网络结构、训练数据和训练策略等方案的选择，但这些选择并没有在先前的文献中被广泛讨论。此外，目前也缺乏合适的基准 (benc…

程序猿

2025年11月9日 • 用户投稿

2000

华人大神出手 AMD显卡AI“炼丹”能力追上来了：RTX 4090八成性能

快科技8月13日消息，除了玩游戏，nvidia的显卡还在ai加速上遥遥领先，不仅科技巨头都在抢a100/h100等显卡，geforce游戏卡也是普通人搞ai炼丹的选择，amd显卡在这方面落后不少。好消息是AMD现在也能追上来了，深度学习领域的华人大神、OctoML CTO陈天奇带领团队在AMD显卡…

程序猿

2025年11月9日 • 用户投稿

13000

Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了

为了挑战 OpenAI 的 GPT-3.5 和 GPT-4 等封闭模型的主导地位，一系列开源模型正在崛起，其中包括 LLaMa、Falcon 等。最近，Meta AI 推出了被誉为开源领域最强大模型的 LLaMa-2，许多研究者也在此基础上构建自己的模型。例如，StabilityAI 利用 Orca…

程序猿

2025年11月9日 • 用户投稿

0000

VMware 与 NVIDIA 为企业开启生成式 AI 时代

vmware和 nvidia于今日宣布扩展双方的战略合作伙伴关系，帮助成千上万家使用 vmware 云基础架构的企业做好准备，迎接ai时代的到来。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ VMware Private AI Found…

程序猿

2025年11月8日 • 用户投稿

0000

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布

昨天，Meta 开源专攻代码生成的基础模型 Code Llama，可免费用于研究以及商用目的。 Code Llama 系列模型有三个参数版本，参数量分别为 7B、13B 和 34B。并且支持多种编程语言，包括 Python、C++、Java、PHP、Typescript (Javascript)、C…

程序猿

2025年11月8日 • 用户投稿

0000

Jais，阿拉伯语AI大模型，正式开源，参数规模达到130亿

重新编写的内容是：出品 | osc开源社区（id：oschina2013) 近日，阿联酋的一个研究团队宣布开源了一款名为Jais的阿拉伯语大模型 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ Jais是一个经过130亿个参数预训练的阿拉伯语…

程序猿

2025年11月8日 • 用户投稿

0000

用户投稿

用BigDL-LLM 即刻加速百亿级参数LLM推理

我们正迈入一个由大语言模型（Large Language Model, LLM）驱动的 AI 新时代，LLM在诸如客户服务、虚拟助理、内容创作、编程辅助等各类应用中正发挥着越来越重要的作用。然而，随着 LLM 规模不断扩大，运行大模型所需的资源消耗也越来越大，导致其运行也越来越慢，这给 AI 应用…

程序猿

2025年11月8日

0000

GPT-4：我写的代码你敢用吗？研究表明其API误用率超过62%

语言建模的新时代已经到来，大型语言模型（LLM）能力非凡，不仅能理解自然语言，甚至能根据用户需求生成定制代码。因此，越来越多的软件工程师选择查询大型语言模型来解答编程问题，比如使用 API 来生成代码段或检测代码中的 bug。相比于搜索 Stack Overflow 等网络编程论坛，大型语言模型可…

程序猿

2025年11月8日 • 用户投稿

16000