ZBV思路有点类似1F1B-Interleaved, 上图说的chunk0是按模型切的不同的virtual pipeline stage(如layer0), chunk1是layer5. 所以pp通信量会增加vps倍。1F1B-Interleaved 和virtual pipeline stage的原理DualPipe上面蓝色框对应下的面这一部分。DualPipeV对比维度DualPipeDualPipeV关键解读核心调度模式双向对称数据从两端同时流入设备两两镜像。V形调度数据单向流入在末端折返形成一个“V”形路径。DualPipeV用更巧妙的单行道实现了双向流的效率。参数内存2倍(2×)1倍(1×)这是DualPipeV最核心的优势它直接消除了参数冗余解决了之前讨论的显存翻倍问题。所需设备数PPPP/2在达到相同流水线深度PP时DualPipeV只需要一半的设备。流水线气泡(PP/2-1)(FBB-3W)(PP/2-1)(FBB-3W)性能无妥协两者的气泡大小公式完全相同保持了极高的并行效率。激活内存PP1PP1两者激活内存占用基本相同。流水线通信量1倍 (1×)2倍 (2×)这是DualPipeV为了消除参数冗余而付出的新代价设备间的通信量翻倍。