llama_第40页_创想鸟

用户投稿

苹果选择通义，肯定阿里的同时，也否定了阿里

苹果ai订单尘埃落定：阿里通义千问胜出，生态安全成关键历时两年的苹果AI订单争夺战最终以阿里巴巴胜出告终。2月11日消息，苹果已选择阿里巴巴为中国版iPhone开发人工智能功能。自2023年起，苹果便在测试多家中国AI模型，竞争者包括百度、字节跳动等巨头，以及百川智能、月之暗面和DeepSeek…

程序猿

2025年11月1日

0000

撞车DeepSeek NSA，Kimi杨植麟署名的新注意力架构MoBA发布，代码也公开

月之暗面发布moba注意力机制，高效处理超长文本！近日，月之暗面团队公开了一种名为moba（mixture of block attention，块注意力混合）的全新注意力机制，该机制巧妙地将混合专家（moe）原理应用于注意力机制，并在长文本处理方面展现出显著优势。这与deepseek同期发布的ns…

程序猿

2025年11月1日 • 用户投稿

0000

流畅阅读— 开源AI浏览器翻译插件，支持双语对照显示

fluentread：你的浏览器翻译利器，助你畅享无障碍阅读体验！ FluentRead是一款开源浏览器翻译插件，它利用先进的AI技术，旨在为你提供如同母语般流畅的阅读体验。支持多种翻译引擎，包括传统的机器翻译和强大的AI大模型，并且允许你自定义翻译服务。其核心功能包含智能翻译、便捷的双语对照显示以…

程序猿

2025年11月1日 • 用户投稿

0000

用户投稿

OpenAI等AI公司竞相利用“蒸馏”技术构建低成本模型

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 全球领先的人工智能公司，包括OpenAI、微软和Meta，正积极采用“模型蒸馏”技术，致力于打造更经济实惠的AI模型，惠及消费者和企业。 DeepSeek公司在中国利用这项技术，基于Meta和阿…

程序猿

2025年11月1日

0000

为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

深度解析：大模型的自我改进能力为何参差不齐？斯坦福大学最新研究揭秘近期，斯坦福大学的一项研究深入探讨了大型语言模型（LLM）自我改进能力背后的机制，解释了为何有些模型能够有效利用额外计算资源提升性能，而另一些则停滞不前。该研究的核心在于模型的初始“认知行为”。研究人员选取了Qwen-2.5-3B…

程序猿

2025年11月1日 • 用户投稿

0000

用户投稿

Meta发布AI新模型系列 Llama 4，首次采用“混合专家”架构

meta发布全新多模态ai模型系列llama 4，引领开源ai发展！该系列包含llama 4 scout、llama 4 maverick和llama 4 behemoth三个模型，能够处理文本、视频、图像和音频等多种数据类型，并在不同格式间实现内容转换。 ☞☞☞AI 智能聊天, 问答助手, AI…

程序猿

2025年10月31日

0000