ai 领域的下一个突破口:原生融合多模态大模型
人工智能似乎在大型语言模型的研发上遭遇了瓶颈。GPT-5的发布延迟以及其他公司面临的类似问题,表明了当前大模型训练的局限性:高昂的成本、漫长的训练时间、日益枯竭的数据资源,以及电力供应等基础设施的限制。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

为了突破瓶颈,研究人员正探索新的方向。OpenAI前首席科学家Ilya Sutskever指出,找到正确的扩展方向至关重要。 多模态模型被认为是AI未来的发展方向,但现有的多模态模型并非“完全体”。

谷歌Gemini 1.5 Pro的出现,以及其他公司对多模态模型的探索,预示着新一代AI技术的兴起。 商汤科技发布的“日日新”原生融合多模态大模型,则代表了这一领域的重大突破。
原生融合多模态:AI的未来之路
“日日新”模型实现了真正意义上的模型一统,能够自然地处理和输出不同模态的内容(语音、图像、文本、视频),并具备强大的多模态推理和跨模态迁移能力。 这符合AI发展的直觉:只有让机器感知物理世界中的多模态信息,才能拥有类似人类的分析、判断和决策能力。

图片来源:https://www.php.cn/link/68b3d03d38ad88126ede9cee289b6661
“日日新”模型的实际应用与测试
我们对商汤科技的“日日新”融合大模型交互版(SenseNova-5o)进行了测试,体验了其实时音视频对话功能。测试结果显示,该模型反应迅速,具备良好的记忆力(长达5分钟),能够理解用户的需求并在多轮对话中保持上下文一致性。 这使得它能够应用于更广泛的场景,例如辅助孩子学习。



我们还测试了“日日新”模型在图像理解、幽默感识别、文物信息解读、数学题解答和图表分析等方面的能力,结果表明其具备强大的多模态理解和推理能力。
GAIPPT
AI PPT制作和美化神器
1215 查看详情







商业落地与未来展望
“日日新”模型及其交互版本SenseNova-5o已经具备商业应用能力,并已在多个场景中落地。 更重要的是,商汤科技在降低模型训练成本方面取得了显著进展,其原生融合方法比分别训练语言模型和多模态模型的成本降低了40%。


商汤认为,真实世界的数据远超互联网数据,原生融合多模态模型能够更好地利用这些数据,从而实现AI的进一步发展。 未来,AI的应用场景将更加广泛,其能力也将得到极大的提升。
传送门:
SenseNova-5o 正式接口及接入方案:https://www.php.cn/link/0fc163f5d52156860e72d1993e30ed6a
以上就是原生融合多模态上的突破,让商汤大模型打破Scaling Laws撞墙「魔咒」的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/764757.html
微信扫一扫
支付宝扫一扫