rationale

  • 7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

    大型语言模型在性能方面表现出色,能够通过零样本或少样本提示来解决新任务。然而,在实际应用部署中,LLM却不太实用,因为它的内存利用效率低,同时需要大量的计算资源 比如运行一个1750亿参数的语言模型服务至少需要350GB的显存,而目前最先进的语言模型大多已超过5000亿参数量,很多研究团队都没有足够…

    2025年11月28日 科技
    000
  • 十个用于可解释AI的Python库

    XAI的目标是为模型的行为和决定提供有意义的解释,本文整理了目前能够看到的10个用于可解释AI的Python库 什么是XAI? XAI,Explainable AI是指可以为人工智能(AI)决策过程和预测提供清晰易懂的解释的系统或策略。XAI 的目标是为他们的行为和决策提供有意义的解释,这有助于增加…

    2025年11月10日 科技
    000
  • GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升

    近期来,大型语言模型在各种自然语言处理任务中取得了显著的突破,特别是在需要进行复杂思维链(CoT)推理的数学问题上 比如在 GSM8K、MATH 这样的高难度数学任务的数据集中,包括 GPT-4 和 PaLM-2 在内的专有模型已取得显著成果。在这方面,开源大模型还有相当的提升空间。为了进一步提高开…

    2025年11月8日 科技
    100
  • 【视觉常识推理】基于paddle复现r2c

    本项目基于Paddle框架复现From Recognition to Cognition: Visual Commonsense Reasoning中的R2C模型,用于解决视觉常识推理任务。该任务要求模型依据图像、相关对象、问题,从四个答案中选出正确项,并从四个原因中选出最合理解释。此复现为相关研究…

    2025年11月6日
    000
关注微信