各种深度学习(DL)框架分布式训练,包括:Tensorflow、Tensorflow2、Pytorch、Chainer、Caffe、Mxnet ...,欢迎大家来共同维护!
Tensorflow 分布式训练示例参见README
Tensorflow2 分布式训练示例参见README
Pytorch 分布式训练示例参见README。其中包括nn.DataParallel
实现方式,nn.parallel.DistributedDataParallel
实现方式以及基于 SLURM
HPC调度实现。
Chainer 分布式训练示例参见README
Mxnet 分布式训练示例参见README
Caffe 分布式训练示例参见README