阿里云今日正式发布并开源了其全新的 qwen3-omni、qwen3-tts,以及对标谷歌 nano banana 图像编辑工具的 qwen-image-edit-2509。

其中,Qwen3-Omni 作为业界首个原生端到端全模态 AI 模型,能够同时处理文本、图像、音频和视频等多种输入类型,并支持通过文本或自然语音进行实时流式输出,有效解决了传统多模态模型在不同能力间难以兼顾的难题。该模型基于“思考者–表达者”双轨架构设计,结合 MoE(专家混合)结构与 AuT 预训练机制,实现高效的跨模态理解与低延迟交互,适用于复杂的多模态任务和实时对话场景。
以上就是Qwen3-Omni 即将登场:端侧跨模态模型再升级,PR 已提交 Transformers 库的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/90519.html
微信扫一扫
支付宝扫一扫