华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
[热点] 时间:2025-08-23 23:35:12 来源:草原辽阔骏马奔腾 作者:综合 点击:200次
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

责任编辑:郭栩彤
(责任编辑:焦点)
相关内容
- 五月天超越鸟巢新纪录 与430万歌迷共创43场鸟巢摇滚万岁壮举
- 亚历山大平均年薪7130万 超过14年冠军马刺全队
- 第五届海峡论坛将开幕 泉州举办台湾特色庙会
- 美团上线“点外卖看鹿晗演唱会”活动,鹿晗工作室:非官方授权,已侵犯鹿晗人格权
- 写作方法:古今纵横选材
- 电脑百度输入法如何打特殊符号
- 闪避时会摸头发!印度首款3A《释放阿凡达》发布实机预告
- 广东省脐血库举行首批储户18岁“成人礼”暨续存仪式
- 环境保护英语作文范文
- 徐汇区军休滨江活动中心举办“传承红色基因 厚植家国情怀”参访活动
- 科创成果集中亮相!2024全球创业者峰会交出亮眼“成绩单”
- 工商银行上海市分行“科技金融助力绿色科技创新”展台亮相上海国际碳博会
- 全家人都喜欢吃的入味菜:啤酒酱烧鸡
- DHS chief Noem fires back at Zohran Mamdani's ICE 'abduction' claims
精彩推荐
- 大豆与拉面结合的营养冷面吃法:韩式豆浆面
- 体重38公斤!旅俄大熊猫“喀秋莎”一周岁啦
- 欧文:和詹姆斯打球会被推到风口浪尖 退役后会讲真实故事
- 西甲身价排行:皇马傲视全球 亚马尔足坛第一
- 《浪浪山小妖怪》自曝致敬多部影视游戏 包括《黑神话:悟空》《戏台》
- 体重38公斤!旅俄大熊猫“喀秋莎”一周岁啦
热门点击
- 真金换青山:中国绿色基础设施“塞上花开” views+
- 神剧?《异形:地球》IGN 9分 MTC 87分“必看” views+
- 《御炮少女》 将于8月25日正式上线Steam——炮塔轰炸,爆衣激战! views+
- 有色墙面翻新的技巧介绍 如何翻新墙面 views+
- 《怪猎荒野》未上榜!《妖精的尾巴》作者真岛浩评年度最佳 views+
- 《时间旅者:重⽣曙光》定档9⽉5⽇全球上线全新剧情预告⽚发布 & 预购开启 views+
- 别墅小院景观设计要点 别墅装修注意事项 views+
- 或影响3A游戏销量?报告称XGP未能显著改变玩家行为! views+
- 装修设计报价是多少 房子装修设计技巧 views+
- 340位中外专家护航国际综合性学术期刊Originality创刊 views+