llama_第19页_创想鸟

使用GaLore在本地GPU进行高效的LLM调优

训练大型语言模型(llm)是一项计算密集型的任务，即使是那些“只有”70亿个参数的模型也是如此。这种级别的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距，出现了低秩适应(lora)等参数高效方法，使得在消费级gpu上可以对大量模型进行微调。 GaLore是一种创新方法，它采用优化参…

程序猿

2025年11月11日 • 用户投稿

1000

清华微软开源全新提示词压缩工具，长度骤降80%！GitHub怒砍3.1K星

在自然语言处理中，有很多信息其实是重复的。如果能将提示词进行有效地压缩，某种程度上也相当于扩大了模型支持上下文的长度。现有的信息熵方法是通过删除某些词或短语来减少这种冗余。然而，基于信息熵的计算仅涵盖了文本的单向上下文，可能会忽略压缩所需的关键信息；而且，信息熵的计算方式并非完全符合压缩提示词…

程序猿

2025年11月11日 • 用户投稿

1000

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

想了解更多aigc的内容，请访问：51CTO AI.x社区 https://www.51cto.com/aigc/ “只需”10万美元，训练Llama-2级别的大模型。尺寸更小但性能不减的MoE模型来了：它叫JetMoE，来自MIT、普林斯顿等研究机构。性能妥妥超过同等规模的Llama-2。…

程序猿

2025年11月11日 • 用户投稿

0000

超越GPT-4，斯坦福团队手机可跑的大模型火了，一夜下载量超2k

在大模型落地应用的过程中，端侧 ai 是非常重要的一个方向。近日，斯坦福大学研究人员推出的 Octopus v2 火了，受到了开发者社区的极大关注，模型一夜下载量超 2k。 20 亿参数的 Octopus v2 可以在智能手机、汽车、个人电脑等端侧运行，在准确性和延迟方面超越了 GPT-4，并将上…

程序猿

2025年11月11日 • 用户投稿

0000

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

如果你一直在关注大型语言模型的架构，你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数，我们本篇文章就来对它进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数，它结合了SWISH和GLU两者的特点。SwiGLU的中文全称是“双…

程序猿

2025年11月11日 • 用户投稿

2000

破除36年前魔咒！Meta推出反向训练大法消除大模型「逆转诅咒」

大语言模型的「逆转诅咒」，被解开了！这个诅咒在去年9月首次被发现，一时间引起LeCun、Karpathy、马库斯等一众大佬的惊呼。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 由于风光无两、不可一世的大模型竟存在着“阿克琉斯之踵”：一个…

程序猿

2025年11月11日 • 用户投稿

1000

Llama架构比不上GPT2？神奇token提升10倍记忆？

一个 7B 规模的语言模型 LLM 能存储多少人类知识？如何量化这一数值？训练时间、模型架构的不同将如何影响这一数值？浮点数压缩 quantization、混合专家模型 MoE、以及数据质量的差异 (百科知识 vs 网络垃圾) 又将对 LLM 的知识容量产生何种影响？朱泽园（Meta AI）和李远…

程序猿

2025年11月11日 • 用户投稿

0000

Mistral开源8X22B大模型，OpenAI更新GPT-4 Turbo视觉，都在欺负谷歌

真有围剿 Google 的态势啊！在谷歌昨晚 Cloud Next 大会进行一系列重大发布时，你们都来抢热度：前有 OpenAI 更新 GPT-4 Turbo，后有 Mistral 开源 8X22B 的超大模型。谷歌内心：南村群童欺我老无力。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索,…

程序猿

2025年11月11日 • 用户投稿

0000

改变LoRA的初始化方式，北大新方法PiSSA显著提升微调效果

随着大模型的参数量日益增长，微调整个模型的开销逐渐变得难以接受。因此，北京大学的研究团队提出了一种名为 PiSSA 的参數高效微调方法，在主流数据集上都超过了目前广泛使用的 LoRA 的微调效果。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜…

程序猿

2025年11月11日 • 用户投稿

1000

本地运行性能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服务，太方便了！

ollama 是一款超级实用的工具，让你能够在本地轻松运行 llama 2、mistral、gemma 等开源模型。本文我将介绍如何使用 ollama 实现对文本的向量化处理。如果你本地还没有安装 ollama，可以阅读这篇文章。本文我们将使用 nomic-embed-text[2] 模型。它是一…

程序猿

2025年11月11日 • 用户投稿

1000