华为发布AI推理创新技术UCM，计划于9月开源

2025年8月12日，在“2025金融AI推理应用落地与发展论坛”上，华为发布了AI推理创新技术UCM（推理记忆数据管理器），并计划于9月开源。

UCM是一款以KV Cache为中心的推理加速套件，它融合多类型缓存加速算法工具，对推理过程中产生的KV Cache记忆数据进行分级管理。通过层级化自适应的全局前缀缓存技术，将推理过程中产生的KV数据按热度分级存储在HBM、DRAM和SSD中。同时，通过动态KV分层卸载和位置编码扩展技术，将超长序列的KV Cache从GPU显存转移至外置专业存储，突破硬件显存容量限制。

首Token时延降低90%：UCM在多轮对话、知识检索等场景中可直接复用历史KV数据，避免重复计算。如在实时客服对话中，首Token响应时间可从50-100ms缩短至5ms以内。

长序列处理效率提升2-22倍：在金融、科研等处理超长文本场景中，UCM通过稀疏注意力算法和分级缓存策略，使每秒处理Token数（TPS）显著优于传统方案。

推理成本降低：分级缓存策略使单Token处理能耗降低28%，减少了对HBM的依赖，硬件采购成本显著降低。同时，在保持算力基础设施不变的前提下，将每Token推理成本降低30%以上。

华为将于2025年9月在魔擎社区首发开源UCM，后续逐步贡献给Hugging Face、TensorRT等主流推理引擎社区，并共享给业内所有Share Everything（共享架构）存储厂商和生态伙伴。