首页 > 编程知识 正文

安装pycuda,pycuda和cuda

时间:2023-05-06 19:02:19 阅读:194952 作者:3464

通过pycuda调用GPU 环境配置CUDApycudanumpy和cv2 代码运行结果关于pycuda

环境配置

在linux OpenSUSE 42.2系统下运行,安装CUDA Toolkit 10.0,pip中安装pycuda、opencv和numpy。

CUDA

直接从CUDA官网(https://developer.nvidia.com/cuda-90-download-archive)下载对应版本的.run文件,运行后根据提示进行安装。除了“显卡驱动”外所有选项都安装。

安装成功后,应可以通过命令行指令,查看cuda版本。

nvcc --version pycuda

从pycuda官网(https://mathema.tician.de/software/pycuda/)给出的方法下载,按照帮助文档(https://wiki.tiker.net/PyCuda/Installation/Linux)逐步安装。

安装完成后,可以运行pycuda提供的简单gpu运算代码。

numpy和cv2

正常通过pip安装就可以。

sudo python -m pip install numpysudo python -m pip install opencv-python 代码

主要写了三个调用GPU的函数,基本上与C中调用cuda的方法一致。关于调用GPU后运算的的效果,我没有去定量计算,只能说比直接通过CPU运算快了很多。

# 这些引用,有一部分是配置pycuda的运行环境的from __future__ import print_functionfrom __future__ import absolute_importimport pycuda.driver as drvimport pycuda.toolsimport pycuda.autoinitimport numpyfrom pycuda.compiler import SourceModuleimport cv2 # 相当于直接生成一个C语言的kernel,注意输入的数据类型是unsigned charmod = SourceModule('''// 渐变色__global__ void drawGardient(unsigned char *img){ const int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x; img[3 * i + 0] = (char) 255 - 255 * (i / 800) / 800; img[3 * i + 1] = (char) 255 - 255 * (i % 800) / 800; img[3 * i + 2] = (char) 128 - 128 * (i / 800) / 800;}// 棋盘格__global__ void drawChess(unsigned char *img){ const int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x; const int flag = (i / 80) + (i / 800 / 80); if (flag % 2){ img[3 * i + 0] = 255; img[3 * i + 1] = 255; img[3 * i + 2] = 255; } else { img[3 * i + 0] = 0; img[3 * i + 1] = 0; img[3 * i + 2] = 0; }}// 两张图片融合__global__ void merge(unsigned char *img1, unsigned char *img2, unsigned char *img3){ const int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x; img3[3 * i + 0] = img1[3 * i + 0] * 3 / 4 + img2[3 * i + 0] / 4; img3[3 * i + 1] = img1[3 * i + 1] * 3 / 4 + img2[3 * i + 1] / 4; img3[3 * i + 2] = img1[3 * i + 2] * 3 / 4 + img2[3 * i + 2] / 4;}''')drawGardient = mod.get_function('drawGardient')drawChess = mod.get_function('drawChess')merge = mod.get_function('merge')if __name__ == '__main__': # 创建3张800*800像素的图片 img1 = numpy.ndarray((800, 800, 3), dtype = numpy.uint8) img2 = numpy.ndarray((800, 800, 3), dtype = numpy.uint8) img3 = numpy.zeros_like(img1) # 通过cuda来调用gpu模块 drawGardient(drv.Out(img1), block = (50, 20, 1), grid = (80, 8)) drawChess(drv.Out(img2), block = (50, 20, 1), grid = (80, 8)) # 根据自己的GPU性能选择合适的block、grid,如果超出会报错 merge(drv.In(img1), drv.In(img2), drv.Out(img3), block = (50, 20, 1), grid = (80, 8)) cv2.namedWindow('image') cv2.imwrite('img1.jpg', img1) cv2.imshow('image', img1) cv2.waitKey(2000) cv2.imwrite('img2.jpg', img2) cv2.imshow('image', img2) cv2.waitKey(2000) cv2.imwrite('img3.jpg', img3) cv2.imshow('image', img3) # ESC退出 while True: if cv2.waitKey(100) == 27: break cv2.destroyAllWindows() 运行结果

运行之后,会依次出现三张图片。


关于pycuda

在pycuda中输入一个m×n像素的图像(相当于一个三维数组),会被转换为(m×n×3)×1的一维数组去进行运算。

例如一个2×3×3的数组:

[[1, 2, 3], [2, 3, 4], [3, 4, 5],[2, 3, 4], [3, 4, 5], [4, 5, 6]]

在pycuda中会被转换为18×1的数组:

[1, 2, 3, 2, 3, 4, 3, 4, 5, 2, 3, 4, 3, 4, 5, 4, 5, 6]

在进行图像处理的时候,可以通过类似的原理,找到对应的行列。当然,通过合理的分配block,也会有更简单的运算方法。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。