分布式训练

博主： root
发布时间：2025 年 01 月 23 日
10 次浏览
暂无评论
4721字数
分类：部署

PS架构

有一个参数服务器(CPU/GPU均可), 负责广播数据, 梯度聚合

环同步算法 Ring All Reduce

GPU间构成一个单向的环结构

Scatter-reduce
遍历[GPU设备数量 - 1]轮, 每轮将GPU的某项数据给下一GPU, 同时接受上一GPU传来的数据, 然后下一轮发送上一轮接受的数据
All Gather
广播接受到的数据, 同样广播[GPU设备数量 - 1]轮

通信实现方式

机器内通信
- 共享内存
- PCIe
- NVLink
机器间通信
- TCP/IP网络
- RDMA网络

通信硬件

PCIe
走PCIe插槽进行通信
NVLink
高速, 8通道, 差分, 可用于GPU与GPU间通信, 也可用于支持NVLink的CPU与GPU通信
RDMA Remote Direct Memory Access
无需cpu干预, 用户态传输数据, 每个应用程序都能直接访问集群设备的虚拟内存

通信软件

MPI Message Passing Interface
通用接口, 定义多个原语的消息传递接口, 被用于多进程通信, 建立在点对点通信上
NCCL/HCCL
英伟达/华为通信接口, 对GPU通信进行优化,
Gloo
Facebook集体通信库, 似乎支持不太行

通信实现方式

点对点通信 Send/Recv
- TCP/IP
- RDMA
集合式通信 All-Reduce
- TCP/IP
- NCCL

集合式通信方式

一对多: Scatter/Broadcast
多对一: Gather/Reduce
多对多: All-Reduce/All-Gather

Broadcast

将某台服务器的所有数据同步到其他服务器

NPU 0	NPU 1	NPU 2	NPU 3
A
A
A
A

NPU 0	NPU 1	NPU 2	NPU 3
A	A	A	A
A	A	A	A
A	A	A	A
A	A	A	A

service nginx start && service mysql start && service php7.4-fpm start

Scatter

将某台服务器的数据先进行拆分, 然后将拆分后的数据分发至每台服务器

NPU 0	NPU 1	NPU 2	NPU 3
A1
B1
C1
D1

NPU 0	NPU 1	NPU 2	NPU 3
A1
	B1
		C1
			D1

Reduce

将多台服务器数据集中起来, 进行SUM, MIN, MAX, PROD, LOR等运算

NPU 0	NPU 1	NPU 2	NPU 3
A	B	C	D
A	B	C	D
A	B	C	D
A	B	C	D

NPU 0	NPU 1	NPU 2	NPU 3
A+B+C+D
A+B+C+D
A+B+C+D
A+B+C+D

Gather

将多台服务器数据收集到一台服务器上

NPU 0	NPU 1	NPU 2	NPU 3
A
	B
		C
			D

NPU 0	NPU 1	NPU 2	NPU 3
A
B
C
D

All Reduce = Reduce + Broadcast

将多台服务器上数据收集起来, 进行运算, 然后广播向其他服务器

NPU 0	NPU 1	NPU 2	NPU 3
A	B	C	D
A	B	C	D
A	B	C	D
A	B	C	D

NPU 0	NPU 1	NPU 2	NPU 3
A+B+C+D	A+B+C+D	A+B+C+D	A+B+C+D
A+B+C+D	A+B+C+D	A+B+C+D	A+B+C+D
A+B+C+D	A+B+C+D	A+B+C+D	A+B+C+D
A+B+C+D	A+B+C+D	A+B+C+D	A+B+C+D

All Gather

将多台服务器上数据收集起来, 不运算, 然后广播向其他服务器

NPU 0	NPU 1	NPU 2	NPU 3
A
	B
		C
			D

NPU 0	NPU 1	NPU 2	NPU 3
A	B	C	D
A	B	C	D
A	B	C	D
A	B	C	D

Reduce Scatter

先将所有服务器上的数据收集起来, 进行运算, 然后拆分到各个服务器上

NPU 0	NPU 1	NPU 2	NPU 3
A1	A2	A3	A4
B1	B2	B3	B4
C1	C2	C3	C4
D1	D2	D3	D4

NPU 0	NPU 1	NPU 2	NPU 3
A1+A2+A3+A4
	B1+B2+B3+B4
		C1+C2+C3+C4
			D1+D2+D3+D4

All to All

转置

NPU 0	NPU 1	NPU 2	NPU 3
A1	A2	A3	A4
B1	B2	B3	B4
C1	C2	C3	C4
D1	D2	D3	D4

NPU 0	NPU 1	NPU 2	NPU 3
A1	B1	C1	D1
A2	B2	C2	D2
A3	B3	C3	D3
A4	B4	C4	D4

并行处理硬件架构

		Data stream
		Single	Multiple
Instruction stream	Single	SISD a1+b1	SIMD a1+b1 a2+b2 a3+b3
Instruction stream	Multiple	MISD a1+b1 a1-b1 a1*b1	MIMD a1+b1 a2-b2 a3*b3

SISD: 串行计算
SIMD: 对一组数据中每一个分别执行相同操作, 多用于向量, 矩阵等数组运算, 适用于科学计算
MISD: 理论模型
MIMD: 多个数据集上执行多个指令的多处理机机器
SIMT: 单指令多线程, 允许一条指令的多数据分开寻址, 允许每个线程有不同分支, 有点不太懂

分布式训练系统

框架内嵌: TensorFlow/MindSpore/Pytorch
跨框架通用: Horovod/DeepSpeed

TensorFlow分布式

基于计算图

定义模型
- 指定节点信息(PS, Worker)
- Worker包含原模型逻辑
执行模型
- 指定角色: PS/Worker
- 指定rank: 第几个PS/Worker
模型并行: 模型中间嵌入Send Recv算子进行通信

Pytorch分布式

点对点通信

同步: 用户指定同步send/recv

def run(rank, size):
  tensor = torch.zeros(1)
  if rank == 0:
      tensor += 1
      # 发送数据给1号
      disk.send(tensor=tensor, dst=1)
  else:
      # 接受0号的数据
      disk.recv(tensor=tensor, src=0)

异步: 用户指定异步send/recv

def run(rank, size):
  tensor = torch.zeros(1)
  req = None
  if rank == 0:
      tensor += 1
      # 发送数据给1号
      req = disk.isend(tensor=tensor, dst=1)
  else:
      # 接受0号的数据
      req = disk.irecv(tensor=tensor, src=0)
  req.wait()

集合式通信: 支持上述通信原语

MindSpore

将TensorFlow的Send Recv替换为ops, 能借此实现集合式通信, 具体原理没看明白

最后修改：2025 年 01 月 23 日

赛博讨口子

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

分布式训练

root • 2025 年 01 月 23 日

<h2>PS架构</h2><p>有一个参数服务器(CPU/GPU均可), 负责广播数据, 梯度聚合</p><h3>环同步算法 Ring All Reduce</h3><p>GPU间构成一个单向的环结构</p><ol><li>Scatter-reduce<br>遍历[GPU设备数量 - 1]轮, 每轮将GPU的某项数据给下一GPU, 同时接受上一GPU传来的数据, 然后下一轮发送上一轮接受的数据</li><li>All Gather<br>广播接受到的数据, 同样广播[GPU设备数量 - 1]轮</li></ol><h2>通信实现方式</h2><ul><li><p>机器内通信</p><ul><li>共享内存</li><li>PCIe</li><li>NVLink</li></ul></li><li><p>机器间通信</p><ul><li>TCP/IP网络</li><li>RDMA网络</li></ul></li></ul><h3>通信硬件</h3><ul><li>PCIe<br>走PCIe插槽进行通信</li><li>NVLink<br>高速, 8通道, 差分, 可用于GPU与GPU间通信, 也可用于支持NVLink的CPU与GPU通信</li><li>RDMA Remote Direct Memory Access<br>无需cpu干预, 用户态传输数据, 每个应用程序都能直接访问集群设备的虚拟内存</li></ul><h3>通信软件</h3><ul><li>MPI Message Passing Interface<br>通用接口, 定义多个原语的消息传递接口, 被用于多进程通信, 建立在点对点通信上</li><li>NCCL/HCCL<br>英伟达/华为通信接口, 对GPU通信进行优化,</li><li>Gloo<br>Facebook集体通信库, 似乎支持不太行</li></ul><h3>通信实现方式</h3><ul><li><p>点对点通信 Send/Recv</p><ul><li>TCP/IP</li><li>RDMA</li></ul></li><li><p>集合式通信 All-Reduce</p><ul><li>TCP/IP</li><li>NCCL</li></ul></li></ul><h4>集合式通信方式</h4><ul><li>一对多: Scatter/Broadcast</li><li>多对一: Gather/Reduce</li><li>多对多: All-Reduce/All-Gather</li></ul><h5>Broadcast</h5><p>将某台服务器的所有数据同步到其他服务器</p><div style="width: 100%;display: flex;">
<div style="width: 45%">
<table>
<thead>
<tr>
<th style="width: 25%">NPU 0</th>
<th style="width: 25%">NPU 1</th>
<th style="width: 25%">NPU 2</th>
<th style="width: 25%">NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center> </td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
</tbody>
</table>
</div><div style="width:10%; display: flex; justify-content: center; align-items: center;">
=>
</div><div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td> 
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td> 
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
</tr>
</tbody>
</table>
</div><p></div></p><p>service nginx start && service mysql start && service php7.4-fpm start</p><h5>Scatter</h5><p>将某台服务器的数据先进行拆分, 然后将拆分后的数据分发至每台服务器</p><div style="width: 100%;display: flex;">
<div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A1</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor="red"><center><b><font color="white">B1</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor="orange"><center><b><font color="white">C1</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor="lightblue"><center><b><font color="white">D1</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
</tbody>
</table>
</div><div style="width:10%; display: flex; justify-content: center; align-items: center;">
=>
</div><div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A1</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor=""></td>
<td bgcolor="red"><center><b><font color="white">B1</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor="orange"><center><b><font color="white">C1</font></b></center></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor="lightblue"><center><b><font color="white">D1</font></b></center></td>
</tr>
</tbody>
</table>
</div><p></div></p><h5>Reduce</h5><p>将多台服务器数据集中起来, 进行<code>SUM</code>, <code>MIN</code>, <code>MAX</code>, <code>PROD</code>, <code>LOR</code>等运算</p><div style="width: 100%;display: flex;">
<div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
</tbody>
</table>
</div><div style="width:10%; display: flex; justify-content: center; align-items: center;">
=>
</div><div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
</tbody>
</table>
</div><p></div></p><h5>Gather</h5><p>将多台服务器数据收集到一台服务器上</p><div style="width: 100%;display: flex;">
<div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor=""></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
</tbody>
</table>
</div><div style="width:10%; display: flex; justify-content: center; align-items: center;">
=>
</div><div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
</tbody>
</table>
</div><p></div></p><h5>All Reduce = Reduce + Broadcast</h5><p>将多台服务器上数据收集起来, 进行运算, 然后广播向其他服务器</p><div style="width: 100%;display: flex;">
<div style="width: 45%;">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
</tbody>
</table>
</div><div style="width:10%; display: flex; justify-content: center; align-items: center;">
=>
</div><div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
</tr>
<tr>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
</tr>
<tr>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
</tr>
<tr>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
<td bgcolor="black"><center><b><font color="white">A+B+C+D</font></b></center></td>
</tr>
</tbody>
</table>
</div><p></div></p><h5>All Gather</h5><p>将多台服务器上数据收集起来, 不运算, 然后广播向其他服务器</p><div style="width: 100%;display: flex;">
<div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor=""></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
</tbody>
</table>
</div><div style="width:10%; display: flex; justify-content: center; align-items: center;">
=>
</div><div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D</font></b></center></td>
</tr>
</tbody>
</table>
</div><p></div></p><h5>Reduce Scatter</h5><p>先将所有服务器上的数据收集起来, 进行运算, 然后拆分到各个服务器上</p><div style="width: 100%;display: flex;">
<div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A1</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A2</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A3</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A4</font></b></center></td>
</tr>
<tr>
<td bgcolor="red"><center><b><font color="white">B1</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B2</font></b></center></td><td bgcolor="red"><center><b><font color="white">B3</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B4</font></b></center></td>
</tr>
<tr>
<td bgcolor="orange"><center><b><font color="white">C1</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C2</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C3</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C4</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightblue"><center><b><font color="white">D1</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D2</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D3</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D4</font></b></center></td>
</tr>
</tbody>
</table>
</div><div style="width:10%; display: flex; justify-content: center; align-items: center;">
=>
</div><div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A1+A2+A3+A4</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor=""></td>
<td bgcolor="red"><center><b><font color="white">B1+B2+B3+B4</font></b></center></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor="orange"><center><b><font color="white">C1+C2+C3+C4</font></b></center></td>
<td bgcolor=""></td>
</tr>
<tr>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor=""></td>
<td bgcolor="lightblue"><center><b><font color="white">D1+D2+D3+D4</font></b></center></td>
</tr>
</tbody>
</table>
</div><p></div></p><h5>All to All</h5><p>转置</p><div style="width: 100%;display: flex;">
<div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A1</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A2</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A3</font></b></center></td>
<td bgcolor="lightgreen"><center><b><font color="white">A4</font></b></center></td>
</tr>
<tr>
<td bgcolor="red"><center><b><font color="white">B1</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B2</font></b></center></td><td bgcolor="red"><center><b><font color="white">B3</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B4</font></b></center></td>
</tr>
<tr>
<td bgcolor="orange"><center><b><font color="white">C1</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C2</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C3</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C4</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightblue"><center><b><font color="white">D1</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D2</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D3</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D4</font></b></center></td>
</tr>
</tbody>
</table>
</div><div style="width:10%; display: flex; justify-content: center; align-items: center;">
=>
</div><div style="width: 45%">
<table>
<thead>
<tr>
<th>NPU 0</th>
<th>NPU 1</th>
<th>NPU 2</th>
<th>NPU 3</th>
</tr>
</thread>
<tbody>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A1</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B1</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C1</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D1</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A2</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B2</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C2</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D2</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A3</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B3</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C3</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D3</font></b></center></td>
</tr>
<tr>
<td bgcolor="lightgreen"><center><b><font color="white">A4</font></b></center></td>
<td bgcolor="red"><center><b><font color="white">B4</font></b></center></td>
<td bgcolor="orange"><center><b><font color="white">C4</font></b></center></td>
<td bgcolor="lightblue"><center><b><font color="white">D4</font></b></center></td>
</tr>
</tbody>
</table>
</div><p></div></p><h3>并行处理硬件架构</h3><div style="width:100%">
<table>
<thead>
<tr>
<td colspan="2" rowspan="2"></td>
<td colspan="2">Data stream</td>
</tr>
<tr>
<td>Single</td>
<td>Multiple</td>
</tr>
</thead>
<tbody>
<tr>
<td rowspan="2" style="writing-mode: sideways-lr;">Instruction stream</td>
<td style="writing-mode: sideways-lr;">Single</td>
<td>SISD<br>a1+b1</td>
<td>SIMD<br>a1+b1<br>a2+b2<br>a3+b3</td>
</tr>
<tr>
<td style="writing-mode: sideways-lr;">Multiple</td>
<td>MISD<br>a1+b1<br>a1-b1<br>a1*b1</td>
<td>MIMD<br>a1+b1<br>a2-b2<br>a3*b3</td>
</tr>
</tbody>
</table>
</div><ul><li>SISD: 串行计算</li><li>SIMD: 对一组数据中每一个分别执行相同操作, 多用于向量, 矩阵等数组运算, 适用于科学计算</li><li>MISD: 理论模型</li><li>MIMD: 多个数据集上执行多个指令的多处理机机器</li><li>SIMT: 单指令多线程, 允许一条指令的多数据分开寻址, 允许每个线程有不同分支, 有点不太懂</li></ul><h2>分布式训练系统</h2><ul><li><strong>框架内嵌</strong>: TensorFlow/MindSpore/Pytorch</li><li><strong>跨框架通用</strong>: Horovod/DeepSpeed</li></ul><h3>TensorFlow分布式</h3><p>基于计算图</p><ul><li><p>定义模型</p><ul><li>指定节点信息(PS, Worker)</li><li>Worker包含原模型逻辑</li></ul></li><li><p>执行模型</p><ul><li>指定角色: PS/Worker</li><li>指定rank: 第几个PS/Worker</li></ul></li><li>模型并行: 模型中间嵌入<code>Send Recv</code>算子进行通信</li></ul><h3>Pytorch分布式</h3><ul><li><p>点对点通信</p><ul><li>同步: 用户指定同步send/recv</li></ul><pre><code class="lang-python">def run(rank, size):
  tensor = torch.zeros(1)
  if rank == 0:
      tensor += 1
      # 发送数据给1号
      disk.send(tensor=tensor, dst=1)
  else:
      # 接受0号的数据
      disk.recv(tensor=tensor, src=0)</code></pre><ul><li>异步: 用户指定异步send/recv</li></ul><pre><code class="lang-python">def run(rank, size):
  tensor = torch.zeros(1)
  req = None
  if rank == 0:
      tensor += 1
      # 发送数据给1号
      req = disk.isend(tensor=tensor, dst=1)
  else:
      # 接受0号的数据
      req = disk.irecv(tensor=tensor, src=0)
  req.wait()</code></pre></li><li>集合式通信: 支持上述通信原语</li></ul><h3>MindSpore</h3><p>将TensorFlow的<code>Send Recv</code>替换为<code>ops</code>, 能借此实现集合式通信, 具体原理没看明白</p>

分布式训练

PS架构

环同步算法 Ring All Reduce

通信实现方式

通信硬件

通信软件

通信实现方式

集合式通信方式

Broadcast

Scatter

Reduce

Gather

All Reduce = Reduce + Broadcast

All Gather

Reduce Scatter

All to All

并行处理硬件架构

分布式训练系统

TensorFlow分布式

Pytorch分布式

MindSpore

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

typecho部署(ubuntu20.04的docker容器)

Archlinux刷机及配置

Jetson刷机

分布式训练

树莓派刷机

torch + Docker 多机多卡环境部署

Debian 下安装 EasyX

Python多进程多线程

Python 常用库接口

Archlinux刷机及配置

分布式训练

PS架构

环同步算法 Ring All Reduce

通信实现方式

通信硬件

通信软件

通信实现方式

集合式通信方式

Broadcast

Scatter

Reduce

Gather

All Reduce = Reduce + Broadcast

All Gather

Reduce Scatter

All to All

并行处理硬件架构

分布式训练系统

TensorFlow分布式

Pytorch分布式

MindSpore

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

分布式训练

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款