这个项目为改进版 LeNet-5 神经网络实现卷积前向传播的 CUDA kernel,目标是在 Fashion-MNIST 数据集的大批量推理任务中提升卷积计算性能。
我使用了 im2col 输入展开、kernel fusion 等 GPU 优化方法,并通过 Nsight Systems 和 Nsight Compute 分析 kernel 性能,定位内存带宽与计算瓶颈。
技术栈
- CUDA
- C++
- Nsight Systems
- Nsight Compute
使用 CUDA 实现并优化改进版 LeNet-5 的卷积前向传播,用于大批量推理任务。
这个项目为改进版 LeNet-5 神经网络实现卷积前向传播的 CUDA kernel,目标是在 Fashion-MNIST 数据集的大批量推理任务中提升卷积计算性能。
我使用了 im2col 输入展开、kernel fusion 等 GPU 优化方法,并通过 Nsight Systems 和 Nsight Compute 分析 kernel 性能,定位内存带宽与计算瓶颈。