小编kar*_*kar的帖子

在CUDA中,什么是内存合并,它是如何实现的？

什么是CUDA全局内存事务中的"合并"？经过我的CUDA指南后,我无法理解.怎么做？在CUDA编程指南矩阵示例中,逐行访问矩阵称为"coalesced"或col .. by col ..称为合并？哪个是正确的,为什么？

cuda definition memory-access

kar*_*kar

2017 04-08

68
推荐指数

3
解决办法

4万
查看次数

什么是套接字编程中的RAW套接字

当我通过套接字编程时,我无法清楚地理解RAW_SOCKET.

我的理解是

如果我打开一个带有此选项AF_INET的套接字,RAW_SOCKET意味着我可以在AF_INET标头之前创建我现在的标头,但最后数据是以AF_INET协议的格式发送的.我的理解是否正确.如果有错,可以解释一下.

谢谢

sockets linux

kar*_*kar

lucky-day

22
推荐指数

3
解决办法

3万
查看次数

volatile关键字有什么用？

在C/C++中使用volatile关键字有什么用？声明变量volatile与不声明变量之间有什么区别volatile？

c c++

kar*_*kar

2011 03-04

20
推荐指数

3
解决办法

9296
查看次数

CUDA __threadfence()

我已经浏览了很多论坛帖子和NVIDIA文档,但我无法理解它是什么__threadfence()以及如何使用它.有人可以解释一下内在的目的是什么吗？

cuda

kar*_*kar

2018 08-21

18
推荐指数

1
解决办法

1万
查看次数

CUDA块中的最大线程数

我对编程指南感到困惑.它陈述如下:

maxThreadsPerBlock:512
maxThreadsDim:512,512,64.

当块中的最大线程数可以是512时,最大线程尺寸如何能够为512*512*64？

cuda

kar*_*kar

2015 11-13

16
推荐指数

1
解决办法

2万
查看次数

CUDA 在给定数组中查找最大值

我试图开发一个小的 CUDA 程序来查找给定数组中的最大值，

int input_data[0...50] = 1,2,3,4,5....,50

Run Code Online (Sandbox Code Playgroud)

max_value由的第一个值初始化input_data[0]，最终答案存储在result[0]. 内核给出 0 作为最大值。我不知道是什么问题。我由 1 个块 50 个线程执行。

__device__ int lock=0;

__global__ void max(float *input_data,float *result)
{
     float max_value = input_data[0];
     int  tid = threadIdx.x;

     if( input_data[tid] > max_value)
     {
         do{} while(atomicCAS(&lock,0,1));
         max_value=input_data[tid];
         __threadfence();
         lock=0;
      }

    __syncthreads();
    result[0]=max_value;  //Final result of max value 
}

Run Code Online (Sandbox Code Playgroud)

尽管有内置函数，但我只是在练习小问题。

cuda

kar*_*kar

2012 01-16

5
推荐指数

1
解决办法

1万
查看次数

CUDA代替syncthreads而不是threadfence()的区别

我从NVIDIA手册中复制了以下代码,例如:for __threadfence().他们为什么使用__threadfence()下面的代码.我认为使用__syncthreads()而不是 __threadfence()会给你相同的结果.

有人可以解释__syncthreads()和__threadfence()电话之间的区别吗？

__device__ unsigned int count = 0;
__shared__ bool isLastBlockDone;

__global__ void sum(const float* array, unsigned int N,float* result)
{
    // Each block sums a subset of the input array
    float partialSum = calculatePartialSum(array, N);

    if (threadIdx.x == 0) {
        // Thread 0 of each block stores the partial sum
        // to global memory
        result[blockIdx.x] = partialSum;

        // Thread 0 makes sure its result is visible to …

Run Code Online (Sandbox Code Playgroud)

cuda

kar*_*kar

2012 07-20

4
推荐指数

1
解决办法

7746
查看次数