Aeeeeeep Blog

摘要

讲解 CUDA C 编程中的简单的内存管理，线程操作，如何编写核函数，使用 Thrust 库，并行计算，性能分析工具。

CUDA编程: CUDA模型概述

2023-12-19

CUDA 编程

摘要

讨论 GPU 的并行计算是如何在硬件上实现的，CUDA 中的模块理解以及 CPU和 GPU 之间的交互，指令的同步。

CUDA编程: GPU编程概述和CUDA环境搭建

2023-12-12

CUDA 编程

摘要

模型变得越来越深，参数愈加庞大，虽然准确率不断增长，由于硬件受限，对实际场景部署的要求也越来越高，CUDA 编程成为了一门必备的武林绝学。

记录第n次创建启用并清理临时swap

2023-12-05

linux

摘要

时常要用 chatgpt 辅助生成 swap，记录下来方便

论文阅读: ZeRO++: Extremely Eficient Collective Communication for Giant Model Training

2023-11-25

懵逼的深度学习

摘要

原文链接：https://arxiv.org/pdf/2306.10209.pdf

开源代码：https://github.com/microsoft/deepspeed

开个新坑: 精读pytorch源码

2023-11-09

懵逼的深度学习

摘要

毕设打算做个简单的深度学习框架，调研了几种语言目前的实现，各有优劣，先从最经典的 torch 读起。欢迎朋友们提出建议

论文阅读: ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning

2023-10-26

懵逼的深度学习

摘要

ZeRO-Infinity 是基于 ZeRO 的扩展，Infinity 离线引擎可以同时利用 GPU、CPU 和 NVMe 内存，还提出了其他的优化技术。

论文阅读: ZeRO-Offload: Democratizing Billion-Scale Model Training

2023-10-17

懵逼的深度学习

摘要

ZeRO-Offload 主要优化在于尽量减少数据在 GPU 与 CPU 之间的移动，并减少 CPU 计算时间，同时最大限度地节省 GPU 上的内存。

记录第n次修复USB设备无法识别挂载

2023-10-11

archlinux

摘要

archlinux 滚着滚着就不能识别 USB 设备了，记录一下修复过程

论文阅读: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

2023-09-30

懵逼的深度学习

摘要

ZeRO 是一种用于大规模深度学习模型的内存优化解决方案，通过消除数据和模型并行训练中的内存冗余，同时保持了低通信量和高计算粒度。