记录第n次创建启用并清理临时swap2023-12-05linux摘要时常要用 chatgpt 辅助生成 swap,记录下来方便Read More...论文阅读: ZeRO++: Extremely Eficient Collective Communication for Giant Model Training2023-11-25懵逼的深度学习摘要原文链接:https://arxiv.org/pdf/2306.10209.pdf开源代码:https://github.com/microsoft/deepspeedRead More...开个新坑: 精读pytorch源码2023-11-09懵逼的深度学习摘要毕设打算做个简单的深度学习框架,调研了几种语言目前的实现,各有优劣,先从最经典的 torch 读起。欢迎朋友们提出建议Read More...论文阅读: ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning2023-10-26懵逼的深度学习摘要ZeRO-Infinity 是基于 ZeRO 的扩展,Infinity 离线引擎可以同时利用 GPU、CPU 和 NVMe 内存,还提出了其他的优化技术。Read More...论文阅读: ZeRO-Offload: Democratizing Billion-Scale Model Training2023-10-17懵逼的深度学习摘要ZeRO-Offload 主要优化在于尽量减少数据在 GPU 与 CPU 之间的移动,并减少 CPU 计算时间,同时最大限度地节省 GPU 上的内存。Read More...记录第n次修复USB设备无法识别挂载2023-10-11archlinux摘要archlinux 滚着滚着就不能识别 USB 设备了,记录一下修复过程Read More...论文阅读: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models2023-09-30懵逼的深度学习摘要ZeRO 是一种用于大规模深度学习模型的内存优化解决方案,通过消除数据和模型并行训练中的内存冗余,同时保持了低通信量和高计算粒度。Read More...论文阅读: PyTorch Distributed: Experiences on Accelerating Data Parallel Training2023-09-17懵逼的深度学习摘要本文提出的 DistributedDataParallel 在优化器运行之前进行梯度平均,用相同的梯度集更新所有模型副本,这样在数学上和本地训练完全等价,而且可以实现异步,比参数平均更加高效。Read More...论文阅读: Horovod: fast and easy distributed deep learning in TensorFlow2023-09-17懵逼的深度学习摘要最近忙实习去了,断更大半年。整理了一下论文,有十几篇没读,后面有时间慢慢更。这篇论文主要工作是对 TensorFlow 框架 API 的重写,使用 ring-allreduce 和 broadcast 方法,进行数据并行。Read More...2023MCM-ICM美赛C题第二问思路2023-02-23数学建模摘要在睡了十一个小时后,蹦出的思路,目前网上没有看到相同的方法(不知道比赛刚结束就发思路会不会出事),第一题和第三题大家大同小异,就不讲解了。Read More...
论文阅读: ZeRO++: Extremely Eficient Collective Communication for Giant Model Training2023-11-25懵逼的深度学习摘要原文链接:https://arxiv.org/pdf/2306.10209.pdf开源代码:https://github.com/microsoft/deepspeedRead More...
开个新坑: 精读pytorch源码2023-11-09懵逼的深度学习摘要毕设打算做个简单的深度学习框架,调研了几种语言目前的实现,各有优劣,先从最经典的 torch 读起。欢迎朋友们提出建议Read More...
论文阅读: ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning2023-10-26懵逼的深度学习摘要ZeRO-Infinity 是基于 ZeRO 的扩展,Infinity 离线引擎可以同时利用 GPU、CPU 和 NVMe 内存,还提出了其他的优化技术。Read More...
论文阅读: ZeRO-Offload: Democratizing Billion-Scale Model Training2023-10-17懵逼的深度学习摘要ZeRO-Offload 主要优化在于尽量减少数据在 GPU 与 CPU 之间的移动,并减少 CPU 计算时间,同时最大限度地节省 GPU 上的内存。Read More...
论文阅读: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models2023-09-30懵逼的深度学习摘要ZeRO 是一种用于大规模深度学习模型的内存优化解决方案,通过消除数据和模型并行训练中的内存冗余,同时保持了低通信量和高计算粒度。Read More...
论文阅读: PyTorch Distributed: Experiences on Accelerating Data Parallel Training2023-09-17懵逼的深度学习摘要本文提出的 DistributedDataParallel 在优化器运行之前进行梯度平均,用相同的梯度集更新所有模型副本,这样在数学上和本地训练完全等价,而且可以实现异步,比参数平均更加高效。Read More...
论文阅读: Horovod: fast and easy distributed deep learning in TensorFlow2023-09-17懵逼的深度学习摘要最近忙实习去了,断更大半年。整理了一下论文,有十几篇没读,后面有时间慢慢更。这篇论文主要工作是对 TensorFlow 框架 API 的重写,使用 ring-allreduce 和 broadcast 方法,进行数据并行。Read More...
2023MCM-ICM美赛C题第二问思路2023-02-23数学建模摘要在睡了十一个小时后,蹦出的思路,目前网上没有看到相同的方法(不知道比赛刚结束就发思路会不会出事),第一题和第三题大家大同小异,就不讲解了。Read More...