CUDA优化001. TensorRT加速SD的优化

给看到的TensorRT加速AI推理2023 Hackson视频做个笔记Video。 SD模型结构: Unet ControlNet VAE Schedule latent(未入图) 优化方法: 步骤 优化操作 时延效果 分析 1 Export unet and controlnet to trt engine 2600ms→634ms 使用GPU执行 2 Use ...

发布于 CUDA性能优化

CUDA编程笔记004. 测量kernel耗时

1、使用cpu时钟测量kernel耗时#include <sys/time.h>double CpuSeconds() { struct timeval tp; gettimeofday(&tp, NULL); // 获取当前cpu时间戳。 return ((double)tp.tv_sec + (double)tp.tv_usec * 1e-6);...

发布于 CUDA编程笔记

CUDA编程笔记003. 线程索引

1、线程索引CUDA提供了两层的层次线程模型: Grid: 定义:执行同一个kernel代码的所有thread集合称为一个grid。 位于同一grid中的thread共享相同的global memory。 一个grid包含多个block。 Block: 定义:一种thread集合,同一block的thread可通过block内同步和block内显存贡献来相互协作。 对应地,在ke...

发布于 CUDA编程笔记

CUDA编程笔记002. Hello CUDA

使用CMake开发第一个CUDA工程hello-cuda。 源代码目录如下: $ tree hello-cuda/.├── CMakeLists.txt└── hello_cuda.cu 1、编写CMakeList.txt cmake_minimum_required(VERSION 3.14)# CMake支持CUDA语言,会自动识别.cu文件,并使用nvcc对齐编译。project(he...

发布于 CUDA编程笔记

CUDA编程笔记001. 安装CUDA

操作环境:Dell笔记本 Ubuntu 22.04 x86_64 Nvidia Geforce GTX 1050Ti 安装指导:https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html 3.10章节 1、检查显卡硬件 $ lspci | grep -i nvidia01:00.0 VGA compatibl...

发布于 CUDA编程笔记