我想在CUDA中声明全局设备变量的对齐方式.具体来说,我有一个字符串声明,如
__device__ char str1 = "some pre-defined string";
在普通的gcc中,我可以请求编译器对齐
__device__ char str1 __attribute__ ((aligned (4))) = "some pre-defined string";
但是,当我在nvcc上尝试此操作时,编译器会忽略这些请求.我想这样做的原因是将这些字符串复制到我的内核中的缓冲区中,并且一次复制字比一次复制字节要快得多,尽管它们要求src字符串对齐.任何人都可以告诉我如何从nvcc编译器请求对齐?