我正在尝试3使用3流来实现“-方式重叠”,如CUDA流和并发网络研讨会中的示例所示。但是我做不到。
我有Geforce GT 550M(带有一个复制引擎的费米架构),并且我正在使用Windows 7(64位)。
这是我编写的代码。
#include <iostream>
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
// includes, project
#include "helper_cuda.h"
#include "helper_functions.h" // helper utility functions
#include <stdio.h>
using namespace std;
#define DATA_SIZE 6000000
#define NUM_THREADS 32
#define NUM_BLOCKS 16
#define NUM_STREAMS 3
__global__ void kernel(const int *in, int *out, int dataSize)
{
int start = blockIdx.x * blockDim.x + threadIdx.x;
int end = dataSize;
for (int i = start; i < end; i += blockDim.x * …Run Code Online (Sandbox Code Playgroud)