如何将结构传递给 JCuda 中的内核

Question

如何将结构传递给 JCuda 中的内核

Dr.*_*all 0 java java-native-interface struct cuda jcuda

我已经看过这个http://www.javacodegeeks.com/2011/10/gpgpu-with-jcuda-good-bad-and-ugly.html，它说我必须修改我的内核以只获取一维数组。但是我拒绝相信在 JCuda 中创建结构并将其复制到设备内存是不可能的。

我想通常的实现是创建一个扩展一些本机 api 的 case 类（scala 术语），然后可以将其转换为可以安全地传递到内核中的结构。不幸的是我没有在谷歌上找到任何东西，因此问题。

Answer 1

Mar*_*o13 5

（这里是 JCuda 的作者（请不是“JCUDA”））

正如评论中链接的论坛帖子中所述：在 CUDA 内核中使用结构并从 JCuda 端填充它们并非不可能。它只是非常复杂，而且很少有好处。

至于为什么在 GPU 编程中使用结构体几乎没有好处的原因，你将不得不参考你在搜索两者之间的差异时会发现的结果

“结构数组”与“数组结构”。

通常，由于改进了内存合并，后者更适用于 GPU 计算，但这超出了我在此答案中可以深刻总结的内容。在这里，我只会总结一下为什么在 GPU 计算中使用结构体一般来说有点困难，尤其是在 JCuda/Java 中尤其困难。

在普通 C 中，结构（理论上！）非常简单，就内存布局而言。想象一个像这样的结构

struct Vertex {
    short a;
    float x;
    float y;
    float z;
    short b;
};

Run Code Online (Sandbox Code Playgroud)

现在您可以创建这些结构的数组：

Vertex* vertices = (Vertex*)malloc(n*sizeof(Vertex));

Run Code Online (Sandbox Code Playgroud)

这些结构将保证被布置为一个连续的内存块：

            |   vertices[0]      ||   vertices[1]      |
            |                    ||                    |
vertices -> [ a|  x |  y |  z | b][ a|  x |  y |  z | b]....

Run Code Online (Sandbox Code Playgroud)

由于 CUDA 内核和 C 代码是用同一个编译器编译的，所以没有太大的争议空间。主机端说“这是一些内存，将其解释为Vertex对象”，内核将收到相同的内存并使用它。

尽管如此，即使在普通的 C 中，在实践中也存在一些意外问题的可能性。编译器通常会在这些结构中引入填充，以实现某些对齐。因此，示例结构实际上可能具有如下布局：

struct Vertex {
    short a;        // 2 bytes
    char PADDING_0  // Padding byte
    char PADDING_1  // Padding byte
    float x;        // 4 bytes
    float y;        // 4 bytes
    float z;        // 4 bytes
    short b;        // 2 bytes
    char PADDING_2  // Padding byte
    char PADDING_3  // Padding byte
};

Run Code Online (Sandbox Code Playgroud)

可以这样做以确保结构与 32 位（4 字节）字边界对齐。此外，某些 pragma 和编译器指令可能会影响这种对齐。CUDA 另外更喜欢某些内存对齐，因此这些指令在 CUDA 标头中大量使用。

简而言之：当您struct在 C 中定义 a ，然后将sizeof(YourStruct)（或结构的实际布局）打印到控制台时，您将很难预测它实际打印的内容。期待一些惊喜。

在 JCuda/Java 中，世界是不同的。根本就没有structs。当你创建一个 Java 类时

class Vertex {
    short a;
    float x;
    float y;
    float z;
    short b;
}

Run Code Online (Sandbox Code Playgroud)

然后创建一个数组

Vertex vertices[2] = new Vertex[2];
vertices[0] = new Vertex();
vertices[1] = new Vertex();

Run Code Online (Sandbox Code Playgroud)

那么这些Vertex对象可能会任意地分散在内存中。你甚至不知道一个Vertex物体有多大，也很难找到它。因此，尝试在 JCuda 中创建一个结构数组并将其传递给 CUDA 内核根本没有意义。

但是，如上所述：它仍然是可能的，以某种形式。如果您知道您的结构在 CUDA 内核中的内存布局，那么您可以创建一个与此结构布局“兼容”的内存块，并从 Java 端填充它。对于类似struct Vertex上面提到的事情，这可能大致（涉及一些伪代码）如下所示：

// 1 short + 3 floats + 1 short, no paddings
int sizeOfVertex = 2 + 4 + 4 + 4 + 2; 

// Allocate data for 2 vertices
ByteBuffer data = ByteBuffer.allocateDirect(sizeOfVertex * 2);

// Set vertices[0].a and vertices[0].x and vertices[0].y
data.position(0).asShortBuffer().put(0, a0);
data.position(2).asFloatBuffer().put(0, x0);
data.position(2).asFloatBuffer().put(1, y0);

// Set vertices[1].a and vertices[1].x and vertices[1].y
data.position(sizeOfVertex+0).asShortBuffer().put(0, a1);
data.position(sizeOfVertex+2).asFloatBuffer().put(0, x1);
data.position(sizeOfVertex+2).asFloatBuffer().put(1, y1);

// Copy the Vertex data to the device
cudaMemcpy(deviceData, Pointer.to(data), cudaMemcpyHostToDevice);

Run Code Online (Sandbox Code Playgroud)

它基本上归结为将内存保存在 a 中ByteBuffer，并手动访问与所需结构的所需字段相对应的内存区域。

但是，警告：您必须考虑这在多个 CUDA-C 编译器版本或平台之间无法完美移植的可能性。当您struct在 32 位 Linux 机器上和在 64 位 Windows 机器上编译一次内核（包含定义）时，结构布局可能不同（并且您的 Java 代码必须意识到这一点）。

_{（注意：可以定义接口来简化这些访问。对于JOCL，我尝试创建更像 C 结构体的实用程序类，并在一定程度上自动化复制过程。但无论如何，这将是不方便的（并且与普通 C 相比没有达到非常好的性能）}

归档时间：	10 年，7 月前
查看次数：	458 次
最近记录：	10 年，6 月前