升级nccl

在使用nccl 2.8.4版本进行训练时,偶尔会出现训练任务卡主的问题,官方建议升级到nccl2.12版本,升级后确实训练任务能够正常运行了

升级nccl 流程:

1
2
3
4
5
6
7
8
9
10
11
12
apt install build-essential fakeroot devscripts lintian debhelper
git clone -b v2.12 https://github.com/NVIDIA/nccl.git
cd nccl
make -j src.build
make pkg.debian.build
dpkg -l
dpkg -r libnccl-dev
dpkg -r libnccl2
cd build/pkg/deb/
chmod 777 libnccl*
dpkg -i libnccl2_2.12.6-1+cuda11.0_amd64.deb
dpkg -i libnccl-dev_2.12.6-1+cuda11.0_amd64.deb

运行nccl-test,确认使用了最新的nccl版本

1
2
3
4
5
git clone https://github.com/NVIDIA/nccl-tests.git
cd nccl-tests/
make
export NCCL_DEBUG=INFO
./build/all_reduce_perf -b 8 -e 256M -f 2 -g 2

avatar