相关疑难解决方法(0)

Fermi架构的虚假依赖关系问题

我正在尝试3使用3流来实现“-方式重叠”,如CUDA流和并发网络研讨会中的示例所示。但是我做不到。

我有Geforce GT 550M(带有一个复制引擎的费米架构),并且我正在使用Windows 7(64位)。

这是我编写的代码。

#include <iostream>

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

// includes, project
#include "helper_cuda.h"
#include "helper_functions.h" // helper utility functions 

#include <stdio.h>

using namespace std;

#define DATA_SIZE 6000000
#define NUM_THREADS 32
#define NUM_BLOCKS 16
#define NUM_STREAMS 3

__global__ void kernel(const int *in, int *out, int dataSize)
{
    int start = blockIdx.x * blockDim.x + threadIdx.x;
    int end =  dataSize;
    for (int i = start; i < end; i += blockDim.x * …
Run Code Online (Sandbox Code Playgroud)

cuda nsight

2
推荐指数
1
解决办法
442
查看次数

标签 统计

cuda ×1

nsight ×1