llama_第33页_创想鸟

「非常接近GPT-4」的WizardLM-2被微软紧急撤回，有什么内幕？

前段时间，微软搞了个乌龙：隆重地开源了 WizardLM-2，又在不久后撤回得干干净净。目前可查询的 WizardLM-2 发布信息，这是一个“真正媲美 GPT-4”的开源大模型，在复杂聊天、多语言、推理和代理方面的性能得到了提高。该系列包括三个模型：WizardLM-2 8x22B、Wizar…

程序猿

2025年11月7日 • 用户投稿

5000

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据，从而指导其行为决策。近期，将视觉数据纳入大型语言模型（如 GPT-4V）的研究取得了重要进展，但如何有效地将图像信息转化为 AI 系统的可执行操作仍面临挑战。为了实现图像信息的转化，一种常见的方法是将图像数据转化为对…

程序猿

2025年11月7日 • 用户投稿

1000

AI学会隐藏思维暗中推理！不依赖人类经验解决复杂任务，更黑箱了

ai做数学题，真正的思考居然是暗中“心算”的？纽约大学团队新研究发现，即使不让AI写步骤，全用无意义的“……”代替，在一些复杂任务上的表现也能大幅提升！一作Jacab Pfau表示：只要花费算力生成额外token就能带来优势，具体选择了什么token无关紧要。 ☞☞☞AI 智能聊天, 问答助手,…

程序猿

2025年11月7日 • 用户投稿

2000

仅用250美元，Hugging Face技术主管手把手教你微调Llama 3

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 我们熟悉的Meta推出的Llama 3、Mistral AI推出的Mistral和Mixtral模型以及AI21实验室推出的Jamba等开源大语言模型已经成为OpenAI的竞争对手。在大多数情…

程序猿

2025年11月7日 • 用户投稿

0000

分享几个.NET开源的AI和LLM相关项目框架

当今人工智能（ai）技术的发展如火如荼，它们在各个领域都展现出了巨大的潜力和影响力。今天大姚给大家分享4个.net开源的ai模型llm相关的项目框架，希望能为大家提供一些参考。 https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/D…

程序猿

2025年11月7日 • 用户投稿

13000

全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，deepseek-v2[1]，全球最强开源 moe 模型来了。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ DeepSeek-V2 是一…

程序猿

2025年11月7日 • 用户投稿

0000

闭源赶超GPT-4 Turbo、开源击败Llama-3-70B，歪果仁：这中国大模型真香

在发布一周年之际，阿里云通义千问大模型在闭源和开源领域都交上了一份满意的答卷。国内的开发者们或许没有想到，有朝一日，他们开发的 AI 大模型会像出海的网文、短剧一样，让世界各地的网友坐等更新。甚至，来自韩国的网友已经开始反思：为什么我们就没有这样的模型？这个「别人家的孩子」就是阿里云的通义千问（…

程序猿

2025年11月7日 • 用户投稿

2000

原作者带队，LSTM真杀回来了！

lstm：这次重生，我要夺回 transformer 拿走的一切。在20世纪90年代，长短时记忆（LSTM）方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来，LSTM经受住了时间的考验，并为众多深度学习的成功案例做出了贡献。然而，随着Transformer横空出世之后，LSTM自身所存储的局…

程序猿

2025年11月7日 • 用户投稿

0000

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Mamba

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢…

程序猿

2025年11月7日 • 用户投稿

0000

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径，浙大用「WISE」对抗幻觉

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ aixiv专栏是本站发布学术、技术内容的栏目。过去数年，本站aixiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢…

程序猿

2025年11月7日 • 用户投稿

6000