小编Roc*_*ock的帖子

cuda对齐256bytes严重吗?

在"CUDA C编程指南5.0"中,p73(也在这里)说"驻留在全局内存中或由驱动程序或运行时API中的一个内存分配例程返回的变量的任何地址始终对齐至少256个字节".我不知道这句话的确切含义.谁能为我展示一个例子?非常感谢.

衍生问题:那么,分配基本元素(如int)或自定义元素的一维数组呢?数组的起始地址是256B的倍数,而数组中每个元素的地址不一定是256B的倍数?

textures cuda

8
推荐指数
1
解决办法
3325
查看次数

如何更改Flink的日志目录

我理解Flink使用log4j来管理日志.所以我在log4j.property中更改了日志设置,在那里我设置了输出位置.但是,当我启动作业主时,它表示日志位置已更改,而不是默认位置.那么我怎样才能优雅地改变Flink的日志位置呢?

log4j apache-flink

6
推荐指数
2
解决办法
2382
查看次数

CUDA5.0样本AdvancedQuickSort

我正在阅读CUDA 5.0样本(AdvancedQuickSort).但是,由于以下代码,我完全无法理解此示例:

// Now compute my own personal offset within this. I need to know how many
// threads with a lane ID less than mine are going to write to the same buffer
// as me. We can use popc to implement a single-operation warp scan in this case.
unsigned lane_mask_lt;
asm( "mov.u32 %0, %%lanemask_lt;" : "=r"(lane_mask_lt) );
unsigned int my_mask = greater ? gt_mask : lt_mask;
unsigned int my_offset = __popc(my_mask & lane_mask_lt);
Run Code Online (Sandbox Code Playgroud)

这是__global__ void qsort_warp函数中的函数,尤其是代码中的汇编语言.任何人都可以帮我解释这种汇编语言的含义吗?

cuda

2
推荐指数
1
解决办法
256
查看次数

标签 统计

cuda ×2

apache-flink ×1

log4j ×1

textures ×1