llama_第5页_创想鸟

Kosong— 月之暗面开源的全新AI Agent开发框架

Kosong是什么 kosong 是由月之暗面（moonshot ai）推出的开源ai agent开发框架，旨在为开发者提供一个轻量级、灵活且易于扩展的基础架构，用于构建新一代智能体应用。该框架内置异步工具编排引擎，能够高效调度多个工具并行运行，例如同时调用天气api、地图服务和日程系统，显著提升智…

程序猿

2025年12月1日 • 用户投稿

0000

【大模型学习】现代大模型架构（一）: 组注意力机制（GQA）和 RMSNorm

前言 ✍ 在大模型论文学习中，相信很多读者和笔者一样，一开始都会有一种感觉：“现在大模型架构都差不多，主要是数据和算力在堆积。”当笔者慢慢总结llama、qwen、deepseek这些模型架构的时候发现，在 attention、位置编码、ffn 与归一化上，其实已经悄悄从经典 transforme…

程序猿

2025年12月1日 • 用户投稿

0000

可直训ChatGPT类模型！华师大、NUS开源HugNLP框架：一键刷榜，全面统一NLP训练

近日，华师大hugailab团队研发了hugnlp框架，这是一个面向研究者和开发者的全面统一的nlp训练框架，可支持包括文本分类、文本匹配、问答、信息抽取、文本生成、小样本学习等多种nlp任务模型搭建和训练。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R…

程序猿

2025年12月1日 • 用户投稿

0000

大象P转身开箱即用！港大、南大、清华等抢先开源「复刻」版DragGAN

还记得前几天发布的DragGAN吗？没错，就是那个「轻轻点两下」1秒修图的工具。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 拍的照片表情不好？修！脸型不够瘦？修！脸冲镜头的角度不对？修！搞不好，「让大象转个身」这个远古PS段子，可能…

程序猿

2025年12月1日 • 用户投稿

2000

清华等开源「工具学习基准」ToolBench，微调模型ToolLLaMA性能超越ChatGPT

人类具有创造和利用工具的能力，使得我们可以突破身体的限制，探索更广阔的世界。人工智能基础模型也类似，如果仅靠训练阶段得到的权重，使用场景就会非常受限，而最近提出的工具学习（tool learning），将特定领域的专用工具与大规模基础模型相结合，可以实现更高的效率、性能。 Cowriter AI…

程序猿

2025年12月1日 • 用户投稿

0000

最强API调用模型来了！基于LLaMA微调，性能超过GPT-4

继羊驼之后，又来了个以动物命名的模型，这次是大猩猩（Gorilla）。虽说目前LLM风头正旺，进展颇多，在各种任务中的性能表现也可圈可点，但这些模型通过API调用有效使用工具的潜力还亟待挖掘。即使对于今天最先进的LLM，比如GPT-4，API调用也是一项具有挑战性的任务，主要是由于它们无法生成准…

程序猿

2025年12月1日 • 用户投稿

0000

清华系面壁智能开源中文多模态大模型VisCPM ：支持对话文图双向生成，吟诗作画能力惊艳

2020 年 12 月发布的 CPM-1 是国内首个中文大模型；2022 年 9 月发布的 CPM-Ant 仅微调 0.06% 参数就能超越全参数微调效果；2023 年 5 月发布的 WebCPM 是中文首个基于搜索的问答开源模型。CPM-Bee 百亿大模型是团队最新发布的基座模型，中文能力登顶…

程序猿

2025年12月1日 • 用户投稿

0000

将上下文长度扩展到256k，无限上下文版本的LongLLaMA来了？

今年 2 月，Meta 发布的 LLaMA 大型语言模型系列，成功推动了开源聊天机器人的发展。因为 LLaMA 比之前发布的很多大模型参数少（参数量从 70 亿到 650 亿不等），但性能更好，例如，最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM…

程序猿

2025年12月1日 • 用户投稿

0000

AI升级的新动力；大模型的应用焦虑，百度怎么解；王小川发布开源大模型丨AI新零售早报

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ ai营销观察《存力，AI升级的新动力》在大模型时代，存储不仅要求量大、质高，还要求性能强、稳定好、节能省。为AI提供存力支持措施：通过支持全类别存储协议，实现多协议数据在多场景下的智能适配融…

程序猿

2025年12月1日 • 用户投稿

0000

淘天集团与爱橙科技合作发布开源大型模型训练框架Megatron-LLaMA

9 月 12 日，淘天集团联合爱橙科技正式对外开源大模型训练框架 ——megatron-llama，旨在让技术开发者们能够更方便的提升大语言模型训练性能，降低训练成本，并且保持和 llama 社区的兼容性。测试显示，在 32 卡训练上，相比 huggingface 上直接获得的代码版本，megatr…

程序猿

2025年12月1日 • 用户投稿

1000