ngc官网的cuda 11镜像如果运行MPI任务,以太网使用以下命令提交训练任务,否则会出现以下错误
这是由于镜像内置了ucx 组件,需要IB的支持,如果没有IB的话,会报错,建议使用一下命令运行mpi任务
1 | mpirun --oversubscribe --allow-run-as-root -np 2 -mca pml ob1 python /inspur/models/horovod/tensorflow_mnist.py --data_dir=/MNIST_data |
mpi这块积累不多,只记录这个错误了,后续深入后,再详细研究