本文主要讲述CUDA的TLP, ILP策略。
TLP是基于线程的并行策略。换句话说,并行的最小粒度是以线程为单位。
ILP是基于指令的并行策略。换句话说,并行的最小粒度是以指令为单位。其中,线程与指令的关系是:一个线程由一条或者多条指令所构成。
在寄存器数目硬件的能力允许范围内,尽可能地增加一个线程内可并发指令的条数。
CPU:Intel Core I7
Memory Size (host):32G
在寄存器数目能力范围内,随着一个线程内可并行指令条数的增加,throughput以S型曲线的形式在不断增加。