magicpig

  • 把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

    利用cpu和gpu协同计算,显著提升大语言模型推理效率!来自cmu、华盛顿大学和meta ai的研究人员提出了一种名为magicpig的新方法,它巧妙地利用cpu上的局部敏感哈希(lsh)技术,有效缓解了gpu内存容量限制,从而大幅提升大语言模型(llm)的推理速度和准确性。 与仅依赖GPU的注意力…

    2025年11月6日 科技
    000
关注微信