ngc cuda11镜像运行mpi任务

ngc官网的cuda 11镜像如果运行MPI任务,以太网使用以下命令提交训练任务,否则会出现以下错误

avatar
这是由于镜像内置了ucx 组件,需要IB的支持,如果没有IB的话,会报错,建议使用一下命令运行mpi任务

1
mpirun --oversubscribe --allow-run-as-root -np 2 -mca pml ob1  python /inspur/models/horovod/tensorflow_mnist.py  --data_dir=/MNIST_data

mpi这块积累不多,只记录这个错误了,后续深入后,再详细研究