作品

GPU 加速的 CNN 推理系统

CUDA
C++
GPU

使用 CUDA 实现并优化改进版 LeNet-5 的卷积前向传播,用于大批量推理任务。

Portrait image used as a project placeholder.

这个项目为改进版 LeNet-5 神经网络实现卷积前向传播的 CUDA kernel,目标是在 Fashion-MNIST 数据集的大批量推理任务中提升卷积计算性能。

我使用了 im2col 输入展开、kernel fusion 等 GPU 优化方法,并通过 Nsight Systems 和 Nsight Compute 分析 kernel 性能,定位内存带宽与计算瓶颈。

技术栈

  • CUDA
  • C++
  • Nsight Systems
  • Nsight Compute