CPM-Distill:经过知识蒸馏的小型文本生成模型

本文介绍知识蒸馏技术及基于PaddleNLP加载CPM-Distill模型实现文本生成。知识蒸馏是模型压缩方法,以“教师-学生网络”思想,让简单模型拟合复杂模型输出,效果优于从头训练。CPM-Distill由GPT-2 Large蒸馏得到,文中还给出安装依赖、加载模型、解码方法及文本生成示例。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

cpm-distill:经过知识蒸馏的小型文本生成模型 - 创想鸟

引入

近些年来,随着 Bert 这样的大规模预训练模型的问世,NLP 领域的模型也逐渐变得越来越大了受限于算力水平,如此大规模的模型要应用在实际的部署场景都是不太实际的因此需要通过一些方式对大规模的模型进行压缩,使其能够在部署场景下达到一个相对可用的速度常见的模型压缩方法有:剪枝、量化、知识蒸馏等最近 CPM(Chinese Pre-Trained Models)项目又开源了一个使用知识蒸馏得到的小型文本生成模型 CPM-Distill本次项目就简单介绍一下知识蒸馏技术并且通过 PaddleNLP 套件加载 CPM-Distill 模型实现文本生成

相关项目

Paddle2.0:构建一个经典的文本生成模型GPT-2文本生成:使用GPT-2加载CPM-LM模型实现简单的问答机器人文本生成:让AI帮你写文章吧【AI创造营】PaddleHub 配合 PaddleNLP 实现简单的文本生成

相关资料

论文:CPM: A Large-scale Generative Chinese Pre-trained Language ModelDistilling the Knowledge in a Neural Network官方实现:TsinghuaAI/CPM-Distill

模型压缩技术

CPM-Distill:经过知识蒸馏的小型文本生成模型 - 创想鸟

知识蒸馏(Knowledge Distillation)

知识蒸馏是一种模型压缩方法,是一种基于“教师-学生网络思想”的训练方法。

由 Hinton 在 2015 年 Distilling the Knowledge in a Neural Network 的论文首次提出了知识蒸馏的并尝试在 CV 领域中使用,旨在把大模型学到的知识灌输到小模型中,以达到缩小模型的目标,示意图如下:

CPM-Distill:经过知识蒸馏的小型文本生成模型 - 创想鸟

说人话就是指用一个简单模型去拟合复杂模型的输出,这个输出也叫做“软标签”,当然也可以加入真实数据作为“硬标签”一同训练。使用知识蒸馏技术相比直接从头训练的效果一般会更好一些,因为教师模型能够指导学生模型收敛到一个更佳的位置。

CPM-Distill:经过知识蒸馏的小型文本生成模型 - 创想鸟

知识蒸馏技术除了可以用来将网络从大网络转化成一个小网络,并保留接近于大网络的性能;也可以将多个网络的学到的知识转移到一个网络中,使得单个网络的性能接近 emsemble 的结果。

蒸馏模型信息

教师模型为 GPT-2 Large,具体的模型参数如下:

teacher_model = GPTModel(    vocab_size=30000,    hidden_size=2560,    num_hidden_layers=32,    num_attention_heads=32,    intermediate_size=10240,    hidden_act="gelu",    hidden_dropout_prob=0.1,    attention_probs_dropout_prob=0.1,    max_position_embeddings=1024,    type_vocab_size=1,    initializer_range=0.02,    pad_token_id=0,    topo=None)

学生模型为 GPT-2 Small,具体的模型参数如下:

teacher_model = GPTModel(    vocab_size=30000,    hidden_size=768,    num_hidden_layers=12,    num_attention_heads=12,    intermediate_size=3072,    hidden_act="gelu",    hidden_dropout_prob=0.1,    attention_probs_dropout_prob=0.1,    max_position_embeddings=1024,    type_vocab_size=1,    initializer_range=0.02,    pad_token_id=0,    topo=None)

蒸馏 loss

将大模型和小模型每个位置上输出之间的 KL 散度作为蒸馏 loss,同时加上原来的 language model loss。总 loss 如下:

CPM-Distill:经过知识蒸馏的小型文本生成模型 - 创想鸟

其中 LlmLlm 为 GPT-2 原始的 language modeling loss。

安装依赖

In [ ]

!pip install paddlenlp==2.0.1 sentencepiece==0.1.92

加载模型

In [1]

import paddlefrom paddlenlp.transformers import GPTModel, GPTForPretraining, GPTChineseTokenizer# tokenizer 与 CPM-LM 模型一致tokenizer = GPTChineseTokenizer.from_pretrained('gpt-cpm-large-cn')# 实例化 GPT2-small 模型gpt = GPTModel(    vocab_size=30000,    hidden_size=768,    num_hidden_layers=12,    num_attention_heads=12,    intermediate_size=3072,    hidden_act="gelu",    hidden_dropout_prob=0.1,    attention_probs_dropout_prob=0.1,    max_position_embeddings=1024,    type_vocab_size=1,    initializer_range=0.02,    pad_token_id=0,    topo=None)# 加载预训练模型参数params = paddle.load('data/data92160/gpt-cpm-small-cn-distill.pdparams')# 设置参数gpt.set_dict(params)# 使用 GPTForPretraining 向模型中添加输出层model = GPTForPretraining(gpt)# 将模型设置为评估模式model.eval()
[2021-05-28 19:38:04,469] [    INFO] - Found /home/aistudio/.paddlenlp/models/gpt-cpm-large-cn/gpt-cpm-cn-sentencepiece.model

模型解码

In [40]

import paddleimport numpy as np# Greedy Searchdef greedy_search(text, max_len=32, end_word=None):    # # 终止标志    if end_word is not None:        stop_id = tokenizer.encode(end_word)['input_ids']        length = len(stop_id)    else:        stop_id = [tokenizer.eod_token_id]        length = len(stop_id)        # 初始预测    ids = tokenizer.encode(text)['input_ids']    input_id = paddle.to_tensor(np.array(ids).reshape(1, -1).astype('int64'))    output, cached_kvs = model(input_id, use_cache=True)    next_token = int(np.argmax(output[0, -1].numpy()))    ids.append(next_token)    # 使用缓存进行继续预测    for i in range(max_len-1):        input_id = paddle.to_tensor(np.array([next_token]).reshape(1, -1).astype('int64'))        output, cached_kvs = model(input_id, use_cache=True, cache=cached_kvs)        next_token = int(np.argmax(output[0, -1].numpy()))        ids.append(next_token)        # 根据终止标志停止预测        if ids[-length:]==stop_id:            if end_word is None:               ids = ids[:-1]            break        return tokenizer.convert_ids_to_string(ids)

In [39]

import paddleimport numpy as np# top_k and top_p filteringdef top_k_top_p_filtering(logits, top_k=0, top_p=1.0, filter_value=-float('Inf')):    """ Filter a distribution of logits using top-k and/or nucleus (top-p) filtering        Args:            logits: logits distribution shape (vocabulary size)            top_k > 0: keep only top k tokens with highest probability (top-k filtering).            top_p > 0.0: keep the top tokens with cumulative probability >= top_p (nucleus filtering).                Nucleus filtering is described in Holtzman et al. (http://arxiv.org/abs/1904.09751)        From: https://gist.github.com/thomwolf/1a5a29f6962089e871b94cbd09daf317    """    top_k = min(top_k, logits.shape[-1])  # Safety check    logits_np = logits.numpy()    if top_k > 0:        # Remove all tokens with a probability less than the last token of the top-k        indices_to_remove = logits_np < np.sort(logits_np)[-top_k]        logits_np[indices_to_remove] = filter_value    if top_p  top_p        # Shift the indices to the right to keep also the first token above the threshold        sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1]        sorted_indices_to_remove[..., 0] = 0        indices_to_remove = sorted_indices[sorted_indices_to_remove]        logits_np[indices_to_remove] = filter_value    return paddle.to_tensor(logits_np)# Nucleus Sampledef nucleus_sample(text, max_len=32, end_word=None, repitition_penalty=1.0, temperature=1.0, top_k=0, top_p=1.0):    # 终止标志    if end_word is not None:        stop_id = tokenizer.encode(end_word)['input_ids']        length = len(stop_id)    else:        stop_id = [tokenizer.eod_token_id]        length = len(stop_id)    # 初始预测    ids = tokenizer.encode(text)['input_ids']    input_id = paddle.to_tensor(np.array(ids).reshape(1, -1).astype('int64'))    output, cached_kvs = model(input_id, use_cache=True)    next_token_logits = output[0, -1, :]    for id in set(ids):        next_token_logits[id] /= repitition_penalty    next_token_logits = next_token_logits / temperature    filtered_logits = top_k_top_p_filtering(next_token_logits, top_k=top_k, top_p=top_p)    next_token = paddle.multinomial(paddle.nn.functional.softmax(filtered_logits, axis=-1), num_samples=1).numpy()    ids += [int(next_token)]    # 使用缓存进行继续预测    for i in range(max_len-1):        input_id = paddle.to_tensor(np.array([next_token]).reshape(1, -1).astype('int64'))        output, cached_kvs = model(input_id, use_cache=True, cache=cached_kvs)        next_token_logits = output[0, -1, :]        for id in set(ids):            next_token_logits[id] /= repitition_penalty        next_token_logits = next_token_logits / temperature        filtered_logits = top_k_top_p_filtering(next_token_logits, top_k=top_k, top_p=top_p)        next_token = paddle.multinomial(paddle.nn.functional.softmax(filtered_logits, axis=-1), num_samples=1).numpy()        ids += [int(next_token)]        # 根据终止标志停止预测        if ids[-length:]==stop_id:            if end_word is None:               ids = ids[:-1]            break    return tokenizer.convert_ids_to_string(ids)

文本生成

In [41]

# 输入文本inputs = input('请输入文本:')print(inputs)# 使用 Nucleus Sample 进行文本生成outputs = greedy_search(    inputs, # 输入文本    max_len=128, # 最大生成文本的长度    end_word=None)# 打印输出print(outputs)
请输入文本:请在此处输入你的姓名请在此处输入你的姓名,然后点击“确定”,就可以开始游戏了。游戏目标:在限定时间内,成功地把所有的牌都通通打完。

In [43]

# 输入文本inputs = input('请输入文本:')print(inputs)for x in range(5):    # 使用 Nucleus Sample 进行文本生成    outputs = nucleus_sample(        inputs, # 输入文本        max_len=128, # 最大生成文本的长度        end_word='。', # 终止符号        repitition_penalty=1.0, # 重复度抑制        temperature=1.0, # 温度        top_k=3000, # 取前k个最大输出再进行采样        top_p=0.9 # 抑制概率低于top_p的输出再进行采样    )    # 打印输出    print(outputs)
请输入文本:请在此处输入你的姓名请在此处输入你的姓名、学校、专业及学科,并在社交媒体上公布你的个人简介。请在此处输入你的姓名或者电话,对方会及时通知你。请在此处输入你的姓名、民族及籍贯信息,当您找到 CADULI 的联系方式后,我们会按您所选择的申请中心,以电子邮件的形式向您发送邮件。请在此处输入你的姓名和电话号码,由资深会所接待员进行介绍,因为此处有不少中国的大老板,英文能看。请在此处输入你的姓名、联系电话、银行卡号和手机号。

以上就是CPM-Distill:经过知识蒸馏的小型文本生成模型的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/66523.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月12日 07:01:04
下一篇 2025年11月12日 07:40:48

相关推荐

  • Cookie币前景分析_2025-2030年COOKIE价格走势展望

    COOKIE币价格受市场情绪、技术发展和生态应用影响,近期波动明显。当前价格约0.067美元,24小时换手率超74%,流通市值约6710万美元,显示高交易活跃度;其价值支撑于代币经济模型及AI服务落地进展,需警惕团队抛压与市场高波动风险。 COOKIE币价格走势受市场情绪、技术发展和生态应用影响,近…

    2025年12月11日
    000
  • Janction (JCT)币全面解析_JCT未来价格走势分析

    JCT币2025年11月14日价格为0.004265美元,24小时涨12.82%,市值4829万美元;其在11月10日曾达0.01214美元高点后大幅回落,波动剧烈,项目定位AI与区块链结合,但存在流动性风险。 一、检查交易平台行情数据 确认JCT币在主流交易所的实时价格和交易量是分析的基础,这能反…

    2025年12月11日
    000
  • 什么是合约只减仓(Reduce Only)?防止平仓操作变成反向开仓

    Reduce Only 是一种仅减少现有仓位的交易指令,防止增加仓位或反向开仓。开启后,买入仅在持有空头且数量不超过空仓时执行,卖出仅在持有多头且不超持仓量时生效;超出部分将被取消或拒绝。用户需在下单界面勾选“Reduce Only”或通过 API 设置 “reduceOnly&#822…

    2025年12月11日
    000
  • Optimism (OP)币核心技术介绍_2025-2030年价值预测

    答案是Optimism采用Optimistic Rollup技术,通过默认信任与欺诈挑战机制提升以太坊吞吐量,经Bedrock升级后优化性能,并推出OP Stack开源框架支持定制化区块链开发。 一、Optimism核心技术概述 Optimism是基于以太坊的Layer 2扩容解决方案,采用Opti…

    2025年12月11日
    000
  • 什么是“链上指标”?用Glassnode等工具洞察市场情绪

    链上指标通过分析区块链公开数据评估市场行为,Glassnode可查看活跃地址、大额转账等核心数据,识别机构动向与市场趋势。 链上指标是通过分析区块链公开数据来评估市场行为和情绪的工具。 为了方便新手快速上手币圈交易并实时查看市场数据,可通过主流交易所币安(Binance)或欧易OKX注册账户并使用官…

    2025年12月11日
    000
  • 什么是NFT金融化(NFTfi)?盘点NFT借贷、租赁与碎片化

    NFT金融化通过抵押借贷、点对池借贷、租赁、碎片化拆分和指数基金等方式提升NFT流动性与资本效率,实现资产价值释放。 NFT金融化(NFTfi)指将非同质化代币与去中心化金融结合,通过技术手段提升NFT的流动性与资本效率。 为了方便新手快速上手币圈交易并实时查看市场数据,可通过主流交易所币安(Bin…

    2025年12月11日
    000
  • Bybit交易所合约操作指南:如何设置追踪止损锁定利润

    Bybit合约交易中设置追踪止损可动态锁定利润。通过APP设置适合移动端用户,步骤包括登录、进入合约界面、选择持仓交易对、启用条件单中的追踪止损并设定回调比例;网页端提供更高级配置,支持设定激活价格与追踪距离,满足复杂策略需求;结合标记价格作为触发基准,能避免插针误触发,提升执行稳定性。 binan…

    2025年12月11日
    000
  • Decentraland (MANA)币虚拟世界_未来五年价格趋势分析

    Decentraland(MANA)价格受技术指标、生态发展与NFT市场联动影响,MACD金叉、KDJ超卖为买入信号,平台活跃度提升及品牌入驻将增强代币价值,NFT交易量增长与低Gas费环境利好其流通。 Decentraland(MANA)币作为元宇宙领域的重要代币,其价格受平台生态发展与市场情绪多…

    2025年12月11日
    000
  • 读懂白皮书并不难,5分钟教你快速筛选优质项目!

    白皮书是评估区块链项目价值的核心依据,需系统分析其结构与内容。1、首先确认项目提出的问题是否真实且有明确用户群体,解决方案是否具备创新性和竞争优势。2、深入考察技术架构,包括是否基于现有公链或自研底层技术,是否有清晰合理的技术路线图和可验证的开源代码、测试网或主网上线记录。3、重点审查代币经济模型,…

    2025年12月11日
    000
  • 币圈套利保姆级教学,每天稳赚1%的秘密都在这!

    掌握币圈套利核心技巧可实现稳定收益:1、跨交易所现货套利通过Binance与Bybit等平台间价差超0.8%时低买高卖,利用API实现毫秒级交易;2、DEX价差套利用闪电贷在Uniswap与PancakeSwap等平台捕捉价格偏离,在单笔交易内完成买卖并偿还贷款,需确保Gas费低于利润30%;3、稳…

    2025年12月11日
    000
  • 分布式存储项目研究_技术特点、市场需求与发展路径

    分布式存储通过多节点网络连接实现数据分散管理,具备高扩展性与可靠性;采用去中心化架构、冗余机制与一致性哈希,保障数据一致性和容错能力;满足金融、互联网、智算中心及安防等领域对高并发、弹性扩容、高带宽与安全性的需求;发展路径聚焦全闪存部署、存算分离、智能分层与安全强化,提升性能与运维效率。 分布式存储…

    2025年12月11日
    000
  • 什么是“同态加密”?区块链隐私技术的未来

    同态加密支持密文计算,实现数据隐私与可用性兼顾:1. 其原理是加密数据运算后解密结果等同明文运算;2. 分为PHE、SHE、FHE三类,分别支持单一、有限及任意计算;3. 在区块链中可用于保护交易金额、构建隐私合约和去中心化数据聚合。 同态加密是一种允许在不解密的情况下对密文进行计算的密码学技术。 …

    2025年12月11日
    000
  • 详解Blast的“原生收益”模型及其争议

    Blast的“原生收益”模型通过将用户存入的ETH质押为stETH、稳定币存入Maker DSR自动获取收益,收益由协议层集成并返还。1、用户通过官方桥接转入资产,智能合约自动转换为stETH或存入DSR;2、依赖Lido与MakerDAO带来系统性风险,若其出现安全或利率问题将直接影响收益;3、初…

    2025年12月11日
    000
  • Curve Finance的工作原理是什么?为何它被称为稳定币兑换之王

    Curve Finance通过StableSwap算法优化稳定币兑换,实现低滑点与高资本效率;算法结合恒定和与乘积模型,在小额交易时保持1:1汇率降低滑点,大额交易时自动调整维持平衡;针对稳定币锚定特性,集中流动性于价格曲线平坦区,显著压缩无常损失,使LP在低风险下持续赚取手续费;并通过CRV与ve…

    2025年12月11日
    000
  • Cookie币staking收益研究_长期持有价值分析

    COOKIE币质押需先确认账户余额并连接兼容链,通过官方页面锁定代币获取基于通胀模型的动态收益,APY随市场波动;高收益率不保证净收益,须结合币价表现计算实际回报,避免因价格下跌导致亏损;不同锁仓周期影响流动性,长期质押收益更高但牺牲资金灵活性,需权衡机会成本;生态发展决定代币价值支撑,应关注项目进…

    2025年12月11日
    000
  • Render Token (RNDR)币应用场景_未来五年价格预测报告

    Render网络通过连接全球GPU资源实现去中心化渲染,支持AI训练、元宇宙开发与影视特效制作,任务由分布式节点并行处理,结果经区块链验证后以RNDR代币结算,已成功应用于《流浪地球》等影片的高精度渲染,大幅提升效率并降低成本。 一、Render网络的去中心化渲染原理 Render网络通过连接全球闲…

    2025年12月11日
    000
  • Optimism的“超级链”(Superchain)愿景是什么?

    Optimism的“超级链”愿景通过模块化与去中心化技术构建统一生态系统。一、实现跨链无缝交互:采用标准化通信协议,部署跨链消息传递桥接合约,支持双向通信;统一地址格式映射规则,避免用户混淆;引入轻客户端验证机制,提升交易确认速度。二、共享排序器网络:多链共用去中心化排序器,节点分布于全球运营商,通…

    2025年12月11日
    000
  • Arbitrum (ARB)币项目深度研究_长期发展路线与价格展望

    Arbitrum(ARB)是以太坊Layer 2扩容方案,基于Optimistic Rollup技术提升效率与安全,采用交互式欺诈证明、Nitro升级及AnyTrust机制优化性能与去中心化;ARB代币用于DAO治理、潜在质押收益及生态燃料支付;通过Orbit框架支持定制化应用链,推动模块化L2生态…

    2025年12月11日
    000
  • COOKIE币流通机制分析_2029-2045年市值预测

    COOKIE币总发行1亿枚,46%流通,56.9%用于生态激励,14.76%用于质押与上市,团队持股9%并设解锁机制,预种子轮占9.35%;市值受技术迭代、生态合作、质押收益、交易活跃度及社区治理影响;历史最高价$0.6697,现价约$0.0047,市场情绪中性偏贪婪,24H换手率0.11%,成交额…

    2025年12月11日
    000
  • 拒绝由于信息差亏钱,这5个币圈必备网站请收藏!

    CoinMarketCap提供全球加密货币数据,支持价格监控与资讯获取;2. CoinGecko强调去中心化与多维评估,助力项目潜力分析;3. TradingView集成实时行情与技术工具,满足专业图表分析需求;4. Dune Analytics通过SQL查询链上数据,实现深度业务洞察;5. Def…

    2025年12月11日
    000

发表回复

登录后才能评论
关注微信