DeepEP 是 DeepSeek 开源的专为 MoE 和专家并行(Expert Parallelism, EP)设计的通信库。提供了一系列优化的通信 Kernel,实现了以下能力:

  • 高度优化的 All 2 All 通信。

  • 同时支持不同的通信类型:

    • 节点内(intra-node):使用 NVLink + NVSwitch 通信。
    • 节点间(inter-node):使用 RDMA 通信。
  • 针对不同场景的 Kernel:

    • 常规(高吞吐) Kernel(Normal Kernel):针对 Training 和 Inference Prefill。节点内 NVLink + 节点间 RDMA 通信。
    • 低时延 Kernel(Low-Latency Kernel):针对 Inference Decoding。使用纯 RDMA 通信来最小化时延。
  • 原生支持 FP 8,减少数据传输需求,相比 FP 16 通信量减半。

  • 灵活的 GPU 资源(SM)控制,支持计算和通信的 Overlap。

代码库:DeepEP: an efficient expert-parallel communication library [2]

参考: