模型
-
让大模型“瘦身”90%!清华&哈工大提出极限压缩方案:1bit量化,能力同时保留83%
对大模型进行量化、剪枝等压缩操作,是部署时最常见不过的一环了。 不过,这个极限究竟有多大? 清华大学和哈工大的一项联合研究给出的答案是: 90%。 他们提出了大模型1bit极限压缩框架OneBit,首次实现大模型权重压缩超越90%并保留大部分(83%)能力。 可以说,玩儿的就是“既要也要”~ ☞☞☞…
-
LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!
微软亚洲研究院推出的最新成果bGPT,这种基于字节的Transformer模型,为我们探索数字世界开辟了新的大门。 与传统基于词表的语言模型不同,bGPT具有独特之处,即其能够直接处理原始二进制数据,不受特定格式或任务的限制。其旨在全面模拟数字世界,为模型的发展打开了新的可能性。 ☞☞☞AI 智能聊…
-
OpenAI发布新的AI微调工具:“绝大多数组织将开发定制模型”
OpenAI宣布了对其微调API的重大增强,以及其定制模型程序的扩展。这些更新将赋予开发者前所未有的控制权,以微调AI模型,并为构建特定业务需求的定制模型提供新途径。自2023年8月推出以来,GPT-3.5的微调API已经成为组合精细化AI模型以执行特定任务的一个转折点。 微调工具在AI模型的发展中…
-
开源模型、单卡训练,带你了解爆火的文本指导音频生成技术AudioLDM
给出一段文字,人工智能就可以生成音乐,语音,各种音效,甚至是想象的声音,比如黑洞和激光枪。最近由英国萨里大学和帝国理工学院联合推出的AudioLDM,在发布之后迅速火遍国外,一周内在推特上收获了近 300 次的转发和 1500 次的点赞。在模型开源第二天,AudioLDM就冲上了 Hugging F…
-
2022年深度学习在时间序列预测和分类中的研究进展综述
时间序列预测的transformers的衰落和时间序列嵌入方法的兴起,还有异常检测、分类也取得了进步 2022年整个领域在几个不同的方面取得了进展,本文将尝试介绍一些在过去一年左右的时间里出现的更有前景和关键的论文,以及Flow Forecast [FF]预测框架。 ☞☞☞AI 智能聊天, 问答助手…
-
想不想把ChatGPT装在自己电脑上?国产开源大语言模型 ChatGLM 帮你实现!
哈喽,大家好。 今天给大家分享一个开源的大语言模型ChatGLM-6B。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 十几天的时间,就收获了近 1w 个 star。 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 G…
-
30亿跑赢GPT-3的1750亿,谷歌新模型引热议,然而却把Hinton年龄搞错了
人工智能一个重要的目标是开发泛化能力强的模型。在自然语言处理(NLP)领域中,预训练语言模型在这方面取得了重大进展。这类模型往往通过微调来适应新的任务。 近日,来自谷歌的研究者分析了多种指令微调方法,包括扩展对指令微调的影响。实验表明,指令微调确实可以根据任务数量和模型大小实现良好的扩展,最大到 5…
-
“视频领域的Midjourney”!AI视频生成新秀Gen-2内测作品流出,网友直呼太逼真
号称可以一句话拍大片的AI视频生成工具Gen-2,开始露出庐山真面目。 有推特博主已经率先拿到了内测资格。 这是他用提示词“一个身材匀称or对称(symmetrical)的男人在酒吧接受采访”生成的结果: 只见一个身着深色衬衣的男人正望着对方侃侃而谈,眼神和表情透露着一股认真和坦率,对面的人则时不时…
-
被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降
继 BERT 之后,研究者们注意到了大规模预训练%ignore_a_1%的潜力,不同的预训练任务、模型架构、训练策略等被提出。但 BERT 类模型通常存在两大缺点:一是过分依赖有标签数据;二是存在过拟合现象。 具体而言,现在的语言模型都倾向于两段式框架,即预训练 + 下游任务微调,但是在针对下游任务…
-
探究新一代超越GPT 3.5的小型模型。
去年年底,OpenAI 向公众推出了 ChatGPT,一经发布,这项技术立即将 AI 驱动的聊天机器人推向了主流话语的中心,众多研究者并就其如何改变商业、教育等展开了一轮又一轮辩论。 随后,科技巨头们纷纷跟进投入科研团队,他们所谓的「生成式 AI」技术(可以制作对话文本、图形等的技术)也已准备就绪。…