SAP-basis相关文档
SAP语言包安装说明
basis学习记录
SAP HANA数据库HA双机架构概念及运维
慢sql查询优化解决方法
SAP 760 客户端安装手册
PO系统日志目录NFS共享
Solution Manager监控配置oracle操作手册
SOLution-Manager-监控配置安装SAP VER环境_李光升
SAP Business One FOR linux 安装教程
SAP 760 GUI 安装访问异常问题分析
SAP Business One FOR HANA 安装
什么是 SAP Business One(SAP B1)
SAP MC/JSmon/Configtool监控配置文档
SAP B1安装文档
PO日志系统磁盘扩容
SAP系统卓创证书更新
新建集团和集团拷贝
SAP HANA自动备份和清理配置操作
HANA slt 同步数据至ORACLE
fico-生产订单的生命周期过程
HANA数据库License申请文档
S4D300client发版至S4D510Cclient改动说明
SAP禁用过期账号
SAP打补丁操作步骤
SUSE 15安装手册
RDS系统恢复演练
suse 磁盘在线扩容操作手册
HANA 性能分析SQL
SAP证书安装操作记录
SAP归档系统配置手册
SAP gui 760客户端安装文档
SAP 调度作业管理制度
新SAP单点windows登录操作手册
新SAP系统mac登录操作手册
AMS系统windows登录手册
AMS系统mac登录SAP手册
HANA磁盘在线扩容-字符方式
2952296-用于数据提供(dpserver)的许多开放内部连接
PO一体机接口卡顿问题分析
PO互备模式
SAP BASIS培训试题
LDAP服务器停掉PO无法启动
SAP用户权限管理
B1重启问题分析ip addr add 10.7.4.52/24 dev eth0
IMM远程管理卡产品学习手册
POSTGre 数据库安装操作
SAP 正式环境COPY到400后需要调整的内容–PO配置
ERP二维码配置生产环境问题
PO系统证书操作手册文档20240815
ABAP基础知识
SAP HANA 内存原理
PO之过期消息的删除
SAP 邮件发送功能配置
用户存在角色却提示无权限的处理方法
hana数据库新建用户及表授权
Linux cached持续增大:原因和解决方法
ProtoReasoning:为大模型推理能力的提升注入新动力
什么是Web Dispatcher
hana数据库的磁盘碎片化整理操作手册
什么是LORA模型
清理HDS数据库中表SXMSCLUP
申请license步骤
国产GLM-4.6编程模型海外“出圈”,成全球开发者新宠儿
HANA数据库版本升级
NVIDIA 推出 Orchestrator\-8B:高效工具和模型选择的强化学习控制器
使用strust来转换pse证书格式
ChatGPT周活破8亿!OpenAI估值飙至5000亿美元,Altman:AI已从“玩具”变为“生产力基建”
如何在操作系统层面上导入请求号
百度智能云全面提速:AI 收入增速目标翻倍至 200%
如何通过hdbcons来降低hana内存使用
DeepSeek 新论文剧透 V4 新框架:用闲置网卡加速智能体推理性能,打破 PD 分离瓶颈
配置SAP中ADS打印功能
维基百科发布编辑新规:投票表决通过,严禁使用 AI 生成或重写文章内容
基于n8n\+ComfyUI工作流自动化生成数字人AI应用场景
本文档使用「觅思文档专业版」发布
-
+
首页
DeepSeek 新论文剧透 V4 新框架:用闲置网卡加速智能体推理性能,打破 PD 分离瓶颈
DualPath 的核心在于解决 Agent 长文本推理场景下的 I/O 瓶颈,通过优化从外部存储加载 KV\-Cache 的速度,确保计算资源不被存储读取拖累。 它改变了传统的存储至预填充引擎(Storage\-to\-Prefill)单路径加载模式,引入了存储至解码引擎(Storage\-to\-Decode)的第二条路径。 通过利用解码引擎闲置的存储网卡(SNIC)带宽读取缓存,并配合高速计算网络(RDMA)将其传输至预填充引擎,DualPath 实现了集群存储带宽的全局池化与动态负载均衡。 在 660B 规模的生产级模型的实测中,DualPath 表现惊人: 离线推理吞吐量提高了 1\.87 倍,在线服务吞吐量平均提升 1\.96 倍。  在高负载下,首字延迟(TTFT)大幅优化,而 Token 间的生成速度(TPOT)几乎不受任何干扰。 双路径加载 (Dual\-Path Loading) 总的来说,DualPath 是一个专门为智能体系统设计的推理框架,它的核心洞见是 —— KV\-Cache 的加载不必以预填充为中心。 在以往的理解中,谁负责计算谁就去搬数据。但 DualPath 认为,缓存可以先加载到解码引擎中,再通过高性能 RDMA 网络传输至预填充引擎。 通过在两条路径间动态选择,DualPath 重新分配了网络负载,缓解了预填充侧的带宽压力。 那么,为什么要费这么大劲去“绕路”? 之所以这样做,是因为在当前的智能体应用中,对话轮数多且上下文长,KV\-Cache 命中率通常高达 95% 以上。 这意味着,每一轮对话都要搬运海量的“旧记忆”,推理性能的瓶颈已经从“计算”转移到了“搬运”上。  在现有的预填充\-解码分离(PD\-disaggregated)架构中,所有的加载任务都拥挤在预填充引擎(PE)的存储网卡上,导致带宽瞬间饱和; 与此同时,解码引擎(DE)的存储网卡却在闲置,造成了严重的资源错配。  更进一步的,当前 GPU 算力的增长远快于网络带宽和 HBM 容量的增长,也加剧了 I/O 限制。 正如英伟达首席科学家 Bill Dally、谷歌架构师 Jeff Dean 等大佬反复强调的:计算是免费的,但数据移动是昂贵的。 针对这些问题,DualPath 构建了创新的双路径模型:  路径 A(传统):存储 → PE,缓存直接读入预填充引擎。 路径 B(新增):存储 → DE → PE,缓存先读入解码引擎的缓冲池,再通过 RDMA 传输给预填充引擎。 在架构组成上: 推理引擎:每个引擎管理一块 GPU,严格区分为预填充(PE)和解码(DE)。 流量管理器:负责 H2D/D2H 拷贝、引擎间传输以及 SNIC 存储读写。 中央调度器:担任“大脑”角色,实时决策每一条请求该走哪条路,从而实现全局带宽的最大化利用。 核心技术方案:存储至解码路径 如上所述,DualPath 推理系统的核心在于打破了传统的“存储至预填充”单路径模式,创新性地引入了“存储至解码”路径。 该设计允许 KV\-Cache 先加载至解码引擎(DE),再通过高带宽计算网络(RDMA)无损传输给预填充引擎(PE)。 通过在两条路径间动态分配负载,系统将集群中原本闲置的解码侧存储网卡(SNIC)带宽彻底释放,构建起一个全局可调度的存储 I/O 资源池。 具体来说,为了支持层级流式处理,DualPath 在 PE 和 DE 上均分配了少量 DRAM 缓冲区(PE / DE Buffer),并针对不同阶段设计了精细的数据流: PE 读取路径:命中 Token 的 KV\-Cache 从存储读入 PE 缓冲区。在每层计算前,该层缓存传输至 PE HBM,与计算过程重叠执行。计算完成后,全量 KV\-Cache 传回 DE 缓冲区以形成完整上下文。 DE 读取路径: KV\-Cache 直接进入 DE 缓冲区。在 PE 预填充期间,对应层的缓存跨节点传输至 PE HBM(计算重叠)。计算结束后,PE 仅需传回新生成的 KV\-Cache 片段与 DE 原有缓存合并。 解码与持久化: DE 缓冲区接收完整 KV\-Cache 后启动解码,执行 H2D 拷贝并随后释放 CPU 内存。虽然引入缓冲增加了 DRAM 压力,但能显著降低 GPU 显存占用并优化首字延迟(TTFT)。生成过程中,每累积满一个 Block(如 64 Token)即触发异步持久化。 但就像前面提到的,“绕路”加载会带来新问题:比如搬运缓存的流量撞上了模型计算的通信,怎么办? 对此,DualPath 给出了两套优化方案: 首先是以计算网卡(CNIC)为中心的流量管理,强制所有流量通过配对的 CNIC 走 GPUDirect RDMA 路径。 在 InfiniBand 或 RoCE 网络中,利用虚拟层(VL / TC)技术,将推理通信设为“最高优先级”并预留 99% 带宽,让缓存搬运只能在间隙中“蹭”带宽,确保互不干扰。 其次是自适应请求调度器:调度器会盯着每个节点的磁盘队列长度和 Token 数。系统会优先将任务分配给 I/O 压力较小且计算负载较轻的节点,从根本上避免单侧网卡或单点计算资源的拥塞。 在实验阶段,DualPath 在 DeepSeek\-V3、Qwen 等模型上进行了测试,场景覆盖了离线 Rollout 和在线服务。 如开头所说,在离线推理中,DualPath 将端到端吞吐量提高了高达 1\.87 倍,在线服务吞吐量平均提升 1\.96 倍,显著降低了首字延迟(TTFT),且保持了极其稳定的 Token 间延迟(TBT)。 总的来说,DualPath 证明了通过重新思考数据加载路径可以有效突破当前大模型推理的 I/O 墙。 它成功利用了解码引擎原本被浪费的 I/O 带宽,配合自适应调度和严谨的流量隔离机制,在不增加硬件成本的前提下,大幅提升了智能体 LLM 推理系统的效率。
谢志成
2026年2月27日 14:40
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
Word文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码
有效期