快手近日正式推出了多模态大语言模型keye-vl-1.5-8b。

https://www.php.cn/link/5831e536b6f7828e911b47c0f2525161
据悉,相较于前代版本,Keye-VL-1.5在整体性能上实现了显著跃升,尤其在基础视觉理解方面表现亮眼,涵盖视觉元素识别、逻辑推理以及时序信息处理等多个维度。该模型在同参数规模中处于领先水平,部分能力甚至超越了如GPT-4o等闭源模型。

Keye-VL-1.5采用了四阶段渐进式训练框架,系统化地提升模型能力。在视觉编码器预训练阶段,模型使用SigLIP-400M的权重初始化ViT结构,并通过SigLIP对比损失函数对内部数据分布进行持续适配与优化。

第一阶段专注于投影MLP层的优化,确保跨模态特征实现稳定对齐;第二阶段则解冻全部参数,开展端到端的多任务预训练,大幅提升模型的基础视觉理解能力;第三阶段引入退火式微调策略,利用高质样本弥补前期高质量数据覆盖不足的问题,同时将序列长度扩展至128K,调整RoPE逆频率设置,并融入长视频、长文本及大尺寸图像等长上下文内容。
最后,采用同质-异质融合技术,对不同数据混合比例下训练出的模型权重进行加权平均,有效缓解因固定数据配比带来的内在偏差,在保留多样化功能的同时增强模型的鲁棒性与泛化能力。
以上就是快手发布开源多模态大模型 Kwai Keye-VL-1.5的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/113249.html
微信扫一扫
支付宝扫一扫