CUDA编程: CUDA模型概述2023-12-19CUDA 编程摘要讨论 GPU 的并行计算是如何在硬件上实现的,CUDA 中的模块理解以及 CPU和 GPU 之间的交互,指令的同步。Read More...CUDA编程: GPU编程概述和CUDA环境搭建2023-12-12CUDA 编程摘要模型变得越来越深,参数愈加庞大,虽然准确率不断增长,由于硬件受限,对实际场景部署的要求也越来越高,CUDA 编程成为了一门必备的武林绝学。Read More...记录第n次创建启用并清理临时swap2023-12-05linux摘要时常要用 chatgpt 辅助生成 swap,记录下来方便Read More...论文阅读: ZeRO++: Extremely Eficient Collective Communication for Giant Model Training2023-11-25懵逼的深度学习摘要原文链接:https://arxiv.org/pdf/2306.10209.pdf开源代码:https://github.com/microsoft/deepspeedRead More...开个新坑: 精读pytorch源码2023-11-09懵逼的深度学习摘要毕设打算做个简单的深度学习框架,调研了几种语言目前的实现,各有优劣,先从最经典的 torch 读起。欢迎朋友们提出建议Read More...论文阅读: ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning2023-10-26懵逼的深度学习摘要ZeRO-Infinity 是基于 ZeRO 的扩展,Infinity 离线引擎可以同时利用 GPU、CPU 和 NVMe 内存,还提出了其他的优化技术。Read More...论文阅读: ZeRO-Offload: Democratizing Billion-Scale Model Training2023-10-17懵逼的深度学习摘要ZeRO-Offload 主要优化在于尽量减少数据在 GPU 与 CPU 之间的移动,并减少 CPU 计算时间,同时最大限度地节省 GPU 上的内存。Read More...记录第n次修复USB设备无法识别挂载2023-10-11archlinux摘要archlinux 滚着滚着就不能识别 USB 设备了,记录一下修复过程Read More...论文阅读: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models2023-09-30懵逼的深度学习摘要ZeRO 是一种用于大规模深度学习模型的内存优化解决方案,通过消除数据和模型并行训练中的内存冗余,同时保持了低通信量和高计算粒度。Read More...论文阅读: PyTorch Distributed: Experiences on Accelerating Data Parallel Training2023-09-17懵逼的深度学习摘要本文提出的 DistributedDataParallel 在优化器运行之前进行梯度平均,用相同的梯度集更新所有模型副本,这样在数学上和本地训练完全等价,而且可以实现异步,比参数平均更加高效。Read More...
CUDA编程: CUDA模型概述2023-12-19CUDA 编程摘要讨论 GPU 的并行计算是如何在硬件上实现的,CUDA 中的模块理解以及 CPU和 GPU 之间的交互,指令的同步。Read More...
CUDA编程: GPU编程概述和CUDA环境搭建2023-12-12CUDA 编程摘要模型变得越来越深,参数愈加庞大,虽然准确率不断增长,由于硬件受限,对实际场景部署的要求也越来越高,CUDA 编程成为了一门必备的武林绝学。Read More...
论文阅读: ZeRO++: Extremely Eficient Collective Communication for Giant Model Training2023-11-25懵逼的深度学习摘要原文链接:https://arxiv.org/pdf/2306.10209.pdf开源代码:https://github.com/microsoft/deepspeedRead More...
开个新坑: 精读pytorch源码2023-11-09懵逼的深度学习摘要毕设打算做个简单的深度学习框架,调研了几种语言目前的实现,各有优劣,先从最经典的 torch 读起。欢迎朋友们提出建议Read More...
论文阅读: ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning2023-10-26懵逼的深度学习摘要ZeRO-Infinity 是基于 ZeRO 的扩展,Infinity 离线引擎可以同时利用 GPU、CPU 和 NVMe 内存,还提出了其他的优化技术。Read More...
论文阅读: ZeRO-Offload: Democratizing Billion-Scale Model Training2023-10-17懵逼的深度学习摘要ZeRO-Offload 主要优化在于尽量减少数据在 GPU 与 CPU 之间的移动,并减少 CPU 计算时间,同时最大限度地节省 GPU 上的内存。Read More...
论文阅读: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models2023-09-30懵逼的深度学习摘要ZeRO 是一种用于大规模深度学习模型的内存优化解决方案,通过消除数据和模型并行训练中的内存冗余,同时保持了低通信量和高计算粒度。Read More...
论文阅读: PyTorch Distributed: Experiences on Accelerating Data Parallel Training2023-09-17懵逼的深度学习摘要本文提出的 DistributedDataParallel 在优化器运行之前进行梯度平均,用相同的梯度集更新所有模型副本,这样在数学上和本地训练完全等价,而且可以实现异步,比参数平均更加高效。Read More...