几个你需要明白的定义

你应给能猜到,内存是CPU的草稿纸,显存是GPU的草稿纸。CPU和显卡都能够计算,他们各有优缺点。

通常,我们把CPU和内存的部分成为“主机”(Host),把先看成为“设备”(Device)。还记得那个简单的做加法的代码里面有个宏叫cudaMemcpyHostToDevice吗?现在你应该知道cudaMemcpy这个函数用这个宏做什么了吧?

我们可以近似地理解为,程序在“主机”上面串行运行,(尽管你的CPU可以是多核的,如果你擅长写多线程的程序最大化的使用CPU的性能那当然很好),在“设备”上面并行运行。

在“设备”上“并行”,这个“并行”的能力,完全不是CPU能够做到的。在同一时间,可能有上千个线程跑在显卡上,可能有几万个线程在等着调度。

先来看几个标识符:

__global__:用来定义Cuda的入口函数,也成为内核函数或者核函数(不是Linux内核的意思)

__devide__:用来定义被“设备”调用的函数

__host__:用来定义被“主机”调用的函数

<<<1, 1>>>:这两个我也不知道该怎么称呼的符号, 里面的两个参数,分别是线程格和线程块。

现在又回到几个定义来:

线程块:一个线程块由很多个线程组成。需要注意的是,线程块不是一个int整形这么简单,如果只是int,像上面的<<<1, 1>>>,你可以把它当作是一维的,你也可以通过dim3()函数把它定义成二维的或者三维的,至于要怎样做,关键是要怎样才能配合你的数据的结构。比如数组、矩阵、或者3D数据等等。

线程格:一个线程格包含有很多线程块,和线程块与线程的关系一样,线程格也是可以通过dim3这个宏来定义的。至于dim3这个宏如何使用,后面会讲到。