2025年8月12日,在“2025金融AI推理应用落地与发展论坛”上,华为发布了AI推理创新技术UCM(推理记忆数据管理器),并计划于9月开源。
UCM是一款以KV Cache为中心的推理加速套件,它融合多类型缓存加速算法工具,对推理过程中产生的KV Cache记忆数据进行分级管理。通过层级化自适应的全局前缀缓存技术,将推理过程中产生的KV数据按热度分级存储在HBM、DRAM和SSD中。同时,通过动态KV分层卸载和位置编码扩展技术,将超长序列的KV Cache从GPU显存转移至外置专业存储,突破硬件显存容量限制。
首Token时延降低90%:UCM在多轮对话、知识检索等场景中可直接复用历史KV数据,避免重复计算。如在实时客服对话中,首Token响应时间可从50-100ms缩短至5ms以内。
长序列处理效率提升2-22倍:在金融、科研等处理超长文本场景中,UCM通过稀疏注意力算法和分级缓存策略,使每秒处理Token数(TPS)显著优于传统方案。
推理成本降低:分级缓存策略使单Token处理能耗降低28%,减少了对HBM的依赖,硬件采购成本显著降低。同时,在保持算力基础设施不变的前提下,将每Token推理成本降低30%以上。
华为将于2025年9月在魔擎社区首发开源UCM,后续逐步贡献给Hugging Face、TensorRT等主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。