Flo*_*ane 3 c++ size pointers cuda
我正在尝试实现这个CUDA示例:http:
//devblogs.nvidia.com/parallelforall/efficient-matrix-transpose-cuda-cc/
因为我有0x4000字节可用,所以我尝试使用TILE_DIM = 128,所以
shared unsigned char tile[TILE_DIM][TILE_DIM];
大小为0x4000字节= 16384字节= 128*128字节.
但是,这给了我以下错误:
CUDACOMPILE : ptxas error : Entry function '_Z18transposeCoalescedPh' uses too much shared data (0x4018 bytes, 0x4000 max)
所以我在共享内存中有额外的0x18(24)字节.它们来自哪里,是否可以将它们删除?
我可以编译为Compute版本2.0+更高以删除错误(我的硬件是版本3.0),但这将使用来自L1缓存的内存,这应该更慢.
| 归档时间: |
|
| 查看次数: |
1008 次 |
| 最近记录: |