在使用nccl 2.8.4版本进行训练时,偶尔会出现训练任务卡主的问题,官方建议升级到nccl2.12版本,升级后确实训练任务能够正常运行了
升级nccl 流程:
1 | apt install build-essential fakeroot devscripts lintian debhelper |
运行nccl-test,确认使用了最新的nccl版本
1 | git clone https://github.com/NVIDIA/nccl-tests.git |
在使用nccl 2.8.4版本进行训练时,偶尔会出现训练任务卡主的问题,官方建议升级到nccl2.12版本,升级后确实训练任务能够正常运行了
升级nccl 流程:
1 | apt install build-essential fakeroot devscripts lintian debhelper |
运行nccl-test,确认使用了最新的nccl版本
1 | git clone https://github.com/NVIDIA/nccl-tests.git |