qwen_第12页_创想鸟

科技

参数量超1万亿！通义千问新模型Qwen3-Max性能领先引期待

近日，阿里巴巴旗下通义千问qwen上线新模型qwen3-max-preview (instruct)。官方宣称，“这是我们迄今为止最大的模型，参数量超1万亿！”参数量的飞跃为ai技术的应用开辟了全新的可能性。 Qwen3-Max-Preview在多项主流权威基准测试中展现出全球领先的性能。在通用知识…

程序猿

2025年11月6日

7000

阿联酋推出低成本 AI 推理模型，宣称“性价比”超同行 20 倍

阿联酋穆罕默德·本·扎耶德人工智能大学（mbzuai）在官网宣布，其与g42共同推出了一款低成本的推理模型“k2 think”。新闻稿声称，K2 Think仅需320亿个参数，却能超越其他公司的、规模大20倍的推理模型。该模型基于阿里巴巴开源Qwen 2.5模型构建，并在Cerebras提供的硬件…

程序猿

2025年11月5日 • 行业动态

0000

大模型全军覆没，中科院自动化所推出多图数学推理新基准

近日，中国科学院自动化研究所推出多图数学推理全新基准mv-math（该工作已被cvpr 2025录用），这是一个精心策划的多图数学推理数据集，旨在全面评估mllm（多模态大语言模型）在多视觉场景中的数学推理能力。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek…

程序猿

2025年11月5日 • 科技

1000

蚂蚁与中国人民大学发布首个原生 MoE 扩散语言模型

蚂蚁集团联合中国人民大学正式发布业界首个基于原生MoE架构的扩散语言模型（dLLM）——“LLaDA-MoE”。该模型采用非自回归的掩码扩散机制，突破了传统语言模型依赖自回归生成的固有范式，在上下文学习、指令理解、代码生成与数学推理等多项核心能力上达到与Qwen2.5系列相当的水平，有力挑战了“语…

程序猿

2025年11月5日 • 行业动态

1000

COMET— 字节开源的通信优化系统

字节跳动推出comet：高效moe模型训练优化系统 COMET是字节跳动为解决Mixture-of-Experts (MoE)模型分布式训练中的高通信开销问题而开发的优化系统。通过细粒度的计算-通信重叠技术，COMET深度融合计算和通信操作，避免了传统方法中因粒度不匹配造成的资源浪费和延迟。它采用…

程序猿

2025年11月5日 • 科技

0000

OLMo 2 32B— Ai2 推出的最新开源语言模型

olmo 2 32b：一款突破性的开源语言模型 Allen Institute for AI (Ai2) 隆重推出其最新力作——OLMo 2 32B，一个参数规模达320亿的开源语言模型。该模型是OLMo 2系列的巅峰之作，在多项学术基准测试中表现卓越，甚至超越了GPT-3.5-Turbo和GPT-…

程序猿

2025年11月5日 • 科技

0000

Moonlight-16B-A3B— 月之暗面开源的 MoE 模型

Moonlight-16B-A3B是什么 moonlight-16b-a3b 是 moonshot ai 推出的新型 mixture-of-expert (moe) 模型，具有 160 亿总参数和 30 亿激活参数。模型使用了优化后的 muon 优化器进行训练，计算效率是传统 adamw 的两倍。在…

程序猿

2025年11月5日 • 科技

0000

亚马逊云科技推出 Qwen3 与 DeepSeek-V3.1 模型的完全托管服务

亚马逊云科技近日宣布，已在Amazon Bedrock平台正式上线Qwen3和DeepSeek-V3.1两款开放权重模型，目前该服务已面向全球用户开放。此次发布进一步强化了亚马逊云科技作为运行开放权重AI模型首选平台的定位。Amazon Bedrock现已汇聚来自Meta、Mistral AI、O…

程序猿

2025年11月5日 • 行业动态

0000

Qwen2.5-VL-32B— 阿里开源的最新多模态模型

阿里巴巴开源的qwen2.5-vl-32b：一款320亿参数的多模态语言模型 Qwen2.5-VL-32B是阿里巴巴最新推出的开源多模态模型，其参数规模达到320亿。它在Qwen2.5-VL系列的基础上，通过强化学习进行了优化，展现出更贴近人类偏好的回答风格、显著提升的数学推理能力以及更强的图像细粒…

程序猿

2025年11月5日 • 科技

0000

Fin-R1— 上海财经联合财跃星辰推出的金融推理大模型

fin-r1：上海财经大学与财跃星辰合作推出的金融领域大型语言模型 Fin-R1是上海财经大学人工智能金融实验室（SUFE-AIFLM-Lab）与财跃星辰联合研发的首个金融领域R1类推理大模型。它基于Qwen2.5-7B-Instruct架构，拥有70亿参数，并经过两阶段训练：监督微调（SFT）和强…

程序猿

2025年11月5日 • 科技

0000