新芒xAI 8月12日消息 8月12日,华为正式发布AI推理创新技术UCM(推理记忆数据管理器)。
据了解,作为一款以KV Cache为中心的推理加速套件,UCM融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,实现高吞吐、低时延的推理体验,降低每Token推理成本。
该技术已率先在中国银联“客户之声”“营销策划”“办公助手”三大业务场景中,开展智慧金融AI推理加速应用试点,并已取得成果。此外,华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发。