llama
-
Kosong— 月之暗面开源的全新AI Agent开发框架
Kosong是什么 kosong 是由月之暗面(moonshot ai)推出的开源ai agent开发框架,旨在为开发者提供一个轻量级、灵活且易于扩展的基础架构,用于构建新一代智能体应用。该框架内置异步工具编排引擎,能够高效调度多个工具并行运行,例如同时调用天气api、地图服务和日程系统,显著提升智…
-
【大模型学习】现代大模型架构(一): 组注意力机制(GQA)和 RMSNorm
前言 ✍ 在大模型论文学习中,相信很多读者和笔者一样,一开始都会有一种感觉:“现在大模型架构都差不多,主要是数据和算力在堆积。”当笔者慢慢总结llama、qwen、deepseek这些模型架构的时候发现,在 attention、位置编码、ffn 与归一化 上,其实已经悄悄从经典 transforme…
-
可直训ChatGPT类模型!华师大、NUS开源HugNLP框架:一键刷榜,全面统一NLP训练
近日,华师大hugailab团队研发了hugnlp框架,这是一个面向研究者和开发者的全面统一的nlp训练框架,可支持包括文本分类、文本匹配、问答、信息抽取、文本生成、小样本学习等多种nlp任务模型搭建和训练。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R…
-
大象P转身开箱即用!港大、南大、清华等抢先开源「复刻」版DragGAN
还记得前几天发布的DragGAN吗? 没错,就是那个「轻轻点两下」1秒修图的工具。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 拍的照片表情不好?修!脸型不够瘦?修!脸冲镜头的角度不对?修! 搞不好,「让大象转个身」这个远古PS段子,可能…
-
清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT
人类具有创造和利用工具的能力,使得我们可以突破身体的限制,探索更广阔的世界。 人工智能基础模型也类似,如果仅靠训练阶段得到的权重,使用场景就会非常受限,而最近提出的工具学习(tool learning),将特定领域的专用工具与大规模基础模型相结合,可以实现更高的效率、性能。 Cowriter AI…
-
最强API调用模型来了!基于LLaMA微调,性能超过GPT-4
继羊驼之后,又来了个以动物命名的模型,这次是大猩猩(Gorilla)。 虽说目前LLM风头正旺,进展颇多,在各种任务中的性能表现也可圈可点,但这些模型通过API调用有效使用工具的潜力还亟待挖掘。 即使对于今天最先进的LLM,比如GPT-4,API调用也是一项具有挑战性的任务,主要是由于它们无法生成准…
-
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
2020 年 12 月发布的 CPM-1 是国内首个中文大模型 ;2022 年 9 月发布的 CPM-Ant 仅微调 0.06% 参数就能超越全参数微调效果;2023 年 5 月发布的 WebCPM 是 中文首个基于搜索的问答开源模型。CPM-Bee 百亿大模型是团队最新发布的基座模型,中文能力登顶…
-
将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?
今年 2 月,Meta 发布的 LLaMA 大型语言模型系列,成功推动了开源聊天机器人的发展。因为 LLaMA 比之前发布的很多大模型参数少(参数量从 70 亿到 650 亿不等),但性能更好,例如,最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM…
-
AI升级的新动力;大模型的应用焦虑,百度怎么解;王小川发布开源大模型丨AI新零售早报
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ ai营销观察 《存力,AI升级的新动力》 在大模型时代,存储不仅要求量大、质高,还要求性能强、稳定好、节能省。为AI提供存力支持措施:通过支持全类别存储协议,实现多协议数据在多场景下的智能适配融…
-
淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA
9 月 12 日,淘天集团联合爱橙科技正式对外开源大模型训练框架 ——megatron-llama,旨在让技术开发者们能够更方便的提升大语言模型训练性能,降低训练成本,并且保持和 llama 社区的兼容性。测试显示,在 32 卡训练上,相比 huggingface 上直接获得的代码版本,megatr…