ein*_*ica 3 cuda memcpy invalid-argument
我有一些调用的内核代码memcpy(my_dst, my_src, my_num_bytes)- 有时我my_num_bytes等于0.奇怪的是,一些零星的实验(使用Titan X,CUDA 7.5,驱动程序358.16)表明,当我这样的调用时,数据会被写入目的地.
memcpy() 不说.这似乎是设备端(当前,即CUDA 7.5)实现中的一个错误memcpy().
像这样的内核:
__global__ void kernel(char* source, char* dst, int len, int sz)
{
int i = threadIdx.x * len;
memcpy(source+i, dst+i, sz);
}
Run Code Online (Sandbox Code Playgroud)
引导工具链发出像这样的PTX:
// .globl _Z6kernelPcS_ii
.visible .entry _Z6kernelPcS_ii(
.param .u64 _Z6kernelPcS_ii_param_0,
.param .u64 _Z6kernelPcS_ii_param_1,
.param .u32 _Z6kernelPcS_ii_param_2,
.param .u32 _Z6kernelPcS_ii_param_3
)
{
.reg .pred %p<2>;
.reg .b16 %rs<2>;
.reg .b32 %r<4>;
.reg .b64 %rd<15>;
ld.param.u64 %rd7, [_Z6kernelPcS_ii_param_0];
ld.param.u64 %rd8, [_Z6kernelPcS_ii_param_1];
ld.param.u32 %r1, [_Z6kernelPcS_ii_param_2];
cvta.to.global.u64 %rd9, %rd8;
cvta.to.global.u64 %rd10, %rd7;
mov.u32 %r2, %tid.x;
mul.lo.s32 %r3, %r2, %r1;
cvt.s64.s32 %rd11, %r3;
add.s64 %rd1, %rd10, %rd11;
add.s64 %rd2, %rd9, %rd11;
mov.u64 %rd14, 0;
ld.param.s32 %rd3, [_Z6kernelPcS_ii_param_3];
BB6_1:
add.s64 %rd12, %rd2, %rd14;
ld.global.u8 %rs1, [%rd12];
add.s64 %rd13, %rd1, %rd14;
st.global.u8 [%rd13], %rs1;
add.s64 %rd14, %rd14, 1;
setp.lt.u64 %p1, %rd14, %rd3;
@%p1 bra BB6_1;
ret;
}
Run Code Online (Sandbox Code Playgroud)
我的阅读是这段代码将始终复制至少一个字节,因为长度参数的值直到字节复制后才会被测试.像这样的东西:
BB6_1:
setp.ge.u64 %p1, %rd14, %rd3;
@%p1 bra Done;
add.s64 %rd12, %rd2, %rd14;
ld.global.u8 %rs1, [%rd12];
add.s64 %rd13, %rd1, %rd14;
st.global.u8 [%rd13], %rs1;
add.s64 %rd14, %rd14, 1;
bra BB6_1;
Done:
Run Code Online (Sandbox Code Playgroud)
可能会按预期工作.
| 归档时间: |
|
| 查看次数: |
139 次 |
| 最近记录: |