我正在寻找可以为CPU(使用g ++)和GPU(使用nvcc)编码的最简洁的代码量,其中GPU始终优于CPU.任何类型的算法都是可接受的.
澄清一下:我实际上正在寻找两个简短的代码块,一个用于CPU(在g ++中使用C++),另一个用于GPU(在nvcc中使用C++),GPU优于其中.优选地,以秒或毫秒为单位.最短的代码对可能.
Pat*_*k87 37
首先,我将重申我的评论:GPU是高带宽,高延迟.试图让GPU在一秒纳秒的工作(或者甚至是毫秒或第二份工作)中击败CPU,完全忽略了做GPU的工作.下面是一些简单的代码,但要真正体会到GPU的性能优势,你需要一个大问题的大小来分摊启动成本......否则,它就没有意义了.我可以在两英尺的比赛中击败法拉利,仅仅因为需要一些时间来转动钥匙,启动发动机并踩下踏板.这并不意味着我以任何有意义的方式比法拉利更快.
在C++中使用这样的东西:
#define N (1024*1024)
#define M (1000000)
int main()
{
float data[N]; int count = 0;
for(int i = 0; i < N; i++)
{
data[i] = 1.0f * i / N;
for(int j = 0; j < M; j++)
{
data[i] = data[i] * data[i] - 0.25f;
}
}
int sel;
printf("Enter an index: ");
scanf("%d", &sel);
printf("data[%d] = %f\n", sel, data[sel]);
}
Run Code Online (Sandbox Code Playgroud)
在CUDA/C中使用这样的东西:
#define N (1024*1024)
#define M (1000000)
__global__ void cudakernel(float *buf)
{
int i = threadIdx.x + blockIdx.x * blockDim.x;
buf[i] = 1.0f * i / N;
for(int j = 0; j < M; j++)
buf[i] = buf[i] * buf[i] - 0.25f;
}
int main()
{
float data[N]; int count = 0;
float *d_data;
cudaMalloc(&d_data, N * sizeof(float));
cudakernel<<<N/256, 256>>>(d_data);
cudaMemcpy(data, d_data, N * sizeof(float), cudaMemcpyDeviceToHost);
cudaFree(d_data);
int sel;
printf("Enter an index: ");
scanf("%d", &sel);
printf("data[%d] = %f\n", sel, data[sel]);
}
Run Code Online (Sandbox Code Playgroud)
如果这不起作用,请尝试使N和M更大,或将256更改为128或512.
作为参考,我做了一个类似的时间测量示例。使用 GTX 660,GPU 加速为 24 倍,其操作除了实际计算之外还包括数据传输。
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>
#include <time.h>
#define N (1024*1024)
#define M (10000)
#define THREADS_PER_BLOCK 1024
void serial_add(double *a, double *b, double *c, int n, int m)
{
for(int index=0;index<n;index++)
{
for(int j=0;j<m;j++)
{
c[index] = a[index]*a[index] + b[index]*b[index];
}
}
}
__global__ void vector_add(double *a, double *b, double *c)
{
int index = blockIdx.x * blockDim.x + threadIdx.x;
for(int j=0;j<M;j++)
{
c[index] = a[index]*a[index] + b[index]*b[index];
}
}
int main()
{
clock_t start,end;
double *a, *b, *c;
int size = N * sizeof( double );
a = (double *)malloc( size );
b = (double *)malloc( size );
c = (double *)malloc( size );
for( int i = 0; i < N; i++ )
{
a[i] = b[i] = i;
c[i] = 0;
}
start = clock();
serial_add(a, b, c, N, M);
printf( "c[0] = %d\n",0,c[0] );
printf( "c[%d] = %d\n",N-1, c[N-1] );
end = clock();
float time1 = ((float)(end-start))/CLOCKS_PER_SEC;
printf("Serial: %f seconds\n",time1);
start = clock();
double *d_a, *d_b, *d_c;
cudaMalloc( (void **) &d_a, size );
cudaMalloc( (void **) &d_b, size );
cudaMalloc( (void **) &d_c, size );
cudaMemcpy( d_a, a, size, cudaMemcpyHostToDevice );
cudaMemcpy( d_b, b, size, cudaMemcpyHostToDevice );
vector_add<<< (N + (THREADS_PER_BLOCK-1)) / THREADS_PER_BLOCK, THREADS_PER_BLOCK >>>( d_a, d_b, d_c );
cudaMemcpy( c, d_c, size, cudaMemcpyDeviceToHost );
printf( "c[0] = %d\n",0,c[0] );
printf( "c[%d] = %d\n",N-1, c[N-1] );
free(a);
free(b);
free(c);
cudaFree( d_a );
cudaFree( d_b );
cudaFree( d_c );
end = clock();
float time2 = ((float)(end-start))/CLOCKS_PER_SEC;
printf("CUDA: %f seconds, Speedup: %f\n",time2, time1/time2);
return 0;
}
Run Code Online (Sandbox Code Playgroud)
一种非常非常简单的方法是计算前 100,000 个整数的平方,或者计算大型矩阵运算。它很容易实现,并且通过避免分支、不需要堆栈等来发挥 GPU 的优势。我不久前使用 OpenCL 与 C++ 进行了此操作,并得到了一些非常惊人的结果。(2GB GTX460 的性能约为双核 CPU 的 40 倍。)
您是在寻找示例代码,还是只是想法?
编辑
40x 是针对双核 CPU,而不是四核。
一些提示:
正如我在对 @Paul R 的评论回复中所说,考虑使用 OpenCL,因为它可以轻松地让您在 GPU 和 CPU 上运行相同的代码,而无需重新实现它。
(回想起来,这些可能是非常明显的。)