云里雾里


  • 首页

  • 关于

  • 标签

  • 归档

  • 搜索

数据并行-模型并行-流水线并行

发表于 2022-08-13
字数统计: 1.4k字 | 阅读时长 ≈ 4分钟
数据并行(DP )1、概念:相同的模型分布在不同的GPU上,在不同的GPU上使用不同的数据。每一张GPU上有相同的参数,在训练的时候每一个GPU训练不同的数据,相当于增大了训练时候的batch_size。数据并行基于一个假设:所有节点都可以放下整个模型。这个假设在某些模型上(如GPT3)是不合理的,因此我们还需要模型并行。 2、并行方式:2.1 同步训练:每个前向、反向结束后显示同步(把每一个GPU上的梯度进行汇总,再在GPU上进行相同的参数更新。) 实现简单,适合同构场景;一个节点出现故 ...
阅读全文 »

AI算力加速之道

发表于 2022-07-21
字数统计: 7k字 | 阅读时长 ≈ 24分钟
1. AI算力发展趋势1.1 人工智能理论:深度学习人工智能发展至今并非一帆风顺, 从起步阶段到现今的深度学习阶段,数据、算法和算力构成了人工智能三大基本要素,共同推动人工智能向更高层次的感知、认知发展。 1.2 第三次人工智能浪潮代表人物如前所述,当前人工智能繁荣离不开数据、算法和算力的共同发展,在算法层面,深度学习三巨头Geoffrey Hinton、Yann LeCun和Yoshua Bengio对AI领域的贡献无人不知、无人不晓,他们围绕神经网络重塑了AI; 数据层面,2007年李飞飞 ...
阅读全文 »

32位浮点数

发表于 2022-07-21
字数统计: 824字 | 阅读时长 ≈ 3分钟
在AI中常提32位浮点数、16位浮点数,混合精度。。这里重点说一下32位浮点数的表示先来一张图 浮点数的计算方式其中s是符号位,e是指数位,m是有效数位组成的数。m的计算方式是 所以上图表示的数字就是 采用这种表示方式的结果是,两个浮点数之间的“间隔”是均匀的。什么意思? 比如说,我想表示浮点数1的话,那么我的二进制位就是: 0 01111111 00000000000000000000000 我想表示2的话,二进制位就是 0 10000000 0000000000000000000000 ...
阅读全文 »

如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL

发表于 2022-07-13
字数统计: 1.5k字 | 阅读时长 ≈ 5分钟
问题详情深度学习中常常需要多GPU并行训练,而Nvidia的NCCL库NVIDIA/nccl(https://github.com/NVIDIA/nccl)在各大深度学习框架(Caffe/Tensorflow/Torch/Theano)的多卡并行中经常被使用,请问如何理解NCCL的原理以及特点? 回答NCCL是Nvidia Collective multi-GPU Communication Library的简称,它是一个实现多GPU的collective communication通信(all ...
阅读全文 »

MMIO内存映射IO

发表于 2022-05-18
字数统计: 449字 | 阅读时长 ≈ 1分钟
啥是MMIO啊MMIO(内存映射IO),是PCI规范的一部分,IO设备被在内存空间,而不是放在IO空间,处理器的角度看,内存映射I/O后系统设备访问起来和内存一样。这样访问AGP/PCI-E显卡上的帧缓存,BIOS,PCI设备就可以使用读写内存一样的汇编指令完成,简化了程序设计的难度和接口的复杂性。I/O作为CPU和外设交流的一个渠道,主要分为两种,一种是Port I/O,一种是MMIO(Memory mapping I/O),MMIO就是通过外围设备映射到内存空间,便于CPU的访问。I/O作为 ...
阅读全文 »

云服务器还是阿里云靠谱啊

发表于 2022-04-19
字数统计: 8字 | 阅读时长 ≈ 1分钟
阿里云服务器 推荐
阅读全文 »

IntelE810 使用说明

发表于 2022-04-18
字数统计: 7.3k字 | 阅读时长 ≈ 45分钟
==============================================================================irdma - Linux* RDMA Driver for the E800 Series and X722 Intel(R) Ethernet Controllers============================================================================== Content ...
阅读全文 »

系统审计-audit与Falco

发表于 2022-03-24
字数统计: 0字 | 阅读时长 ≈ 1分钟
阅读全文 »

Linux中arp表的老化机制

发表于 2022-02-22
字数统计: 8字 | 阅读时长 ≈ 1分钟
https://www.cnblogs.com/lsgxeva/p/13749751.html
阅读全文 »

升级nccl

发表于 2022-02-10
字数统计: 169字 | 阅读时长 ≈ 1分钟
在使用nccl 2.8.4版本进行训练时,偶尔会出现训练任务卡主的问题,官方建议升级到nccl2.12版本,升级后确实训练任务能够正常运行了 升级nccl 流程: 123456789101112apt install build-essential fakeroot devscripts lintian debhelpergit clone -b v2.12 https://github.com/NVIDIA/nccl.gitcd ncclmake -j ...
阅读全文 »
<123…11>

103 日志
22 标签
E-Mail
友情链接
  • Binge Blog
  • 林夕-博客
© 2024 DavidStack
鲁ICP备 - 16023683号-1