从内核检索结果

Question

从内核检索结果

我在玩内核函数时遇到了一些问题。

我想要做的只是将一个数组发送到函数，然后waitUntilCompleted在数组中返回结果。

以下是一个数组，malloc在循环后将填充从 0 到 123455 的数字：

float *myVector = malloc(123456 * sizeof(float));

Run Code Online (Sandbox Code Playgroud)

这是myVector将发送到内核的数组以及：

float *resultData =  malloc(123456 * sizeof(float));
id <MTLBuffer> inBuffer = [device newBufferWithBytes:&myVector[0] length:sizeof(myVector) options:MTLResourceOptionCPUCacheModeDefault];
id <MTLBuffer> buffer = [device newBufferWithBytes:&resultData[0] length:sizeof(resultData) options:MTLResourceOptionCPUCacheModeDefault];

Run Code Online (Sandbox Code Playgroud)

使用计算命令编码器，它们都被设置为位于索引0，1具有偏移0，分别。

以下设置线程组和组内线程的大小：

MTLSize threadGroupCounts = MTLSizeMake([device maxThreadsPerThreadgroup].width, 1, 1);
MTLSize threadGroups = MTLSizeMake((123456) / threadGroupCounts.width, 1, 1);

[commandEncoder dispatchThreadgroups:threadGroups threadsPerThreadgroup:threadGroupCounts];

[commandEncoder endEncoding];
[commandBuffer commit];
[commandBuffer waitUntilCompleted];

Run Code Online (Sandbox Code Playgroud)

我收到两次以下错误：

由于执行期间出错，命令缓冲区的执行被中止。导致 GPU 挂起错误（IOAF 代码 3）

在花了很多时间之后，我得出的结论是错误是由以下几行引起的：

MTLSize threadGroupCounts = MTLSizeMake([device maxThreadsPerThreadgroup].width, 1, 1);
MTLSize threadGroups = MTLSizeMake((123456) / [device maxThreadsPerThreadgroup].width, 1, 1);

Run Code Online (Sandbox Code Playgroud)

如果设置了，只是作为一个例子，(123456) / [device maxThreadsPerThreadgroup].width是32，将不会发生错误，但结果会除了该阵列中的第一的2个值都是零。

以下是我尝试在处理后获得结果的方法：

NSData *data = [NSData dataWithBytesNoCopy:buffer.contents length:sizeof(myVector) freeWhenDone:NO];
float *finalArray = malloc(sizeof(float) * 123456);
[data getBytes:&finalArray[0] length:sizeof(finalArray)];

Run Code Online (Sandbox Code Playgroud)

这是函数：

kernel void test(const device float *inVector [[buffer (0)]],
                 device float *outVector [[buffer (1)]],
                 uint id [[thread_position_in_grid]])
{
    outVector[id] = -inVector[id]; 
}

Run Code Online (Sandbox Code Playgroud)

我想我在设置螺纹尺寸时遇到了麻烦。作为测试，我试图实现的是设置每个线程组允许的最大线程数，将数组的大小除以这个数字并将其发送给处理。有人可以告诉我如何设置线程组大小，将数组发送到函数并最终正确正确地检索数组中的结果吗？

谢谢。

Answer 1

war*_*enm 5

您计算MTLBuffers大小的方式有误。因为myVector是一个指针，sizeof(myVector)可能是 8，而不是 493824。这反过来又会导致您没有为您的数据分配足够的空间，并且读取超出内核函数中缓冲区的边界。尝试在创建缓冲区时使用与使用分配浮点数组时相同的大小malloc，看看是否有帮助。

您需要对从输出缓冲区中检索的字节数进行相应的更改getBytes:length:。

我认为您计算线程组大小和计数的方式是合理的，但您应该注意整数截断。如果要处理的元素总数不能被线程组大小整除，则计算线程组计数的方式将向下取整，从而导致您跳过某些元素。

避免这种情况的一种方法是将您调度的线程组的数量取整，并明确检查缓冲区长度以防止越界访问。所以你可以像这样计算你的线程组数量和大小：

const int elementCount = 123456;
MTLSize threadgroupSize = MTLSizeMake([device maxThreadsPerThreadgroup].width, 1, 1);
MTLSize threadgroups = MTLSizeMake(ceil(elementCount / (float)threadgroupSize.width), 1, 1);

Run Code Online (Sandbox Code Playgroud)

...传入缓冲区大小，如下所示：

[computeCommandEncoder setBytes:&elementCount length:sizeof(elementCount) atIndex:2];

Run Code Online (Sandbox Code Playgroud)

...并检查这样的界限：

kernel void test(const device float *inVector [[buffer (0)]],
                 device float *outVector [[buffer (1)]],
                 constant int &elementCount [[buffer (2)]],
                 uint id [[thread_position_in_grid]])
{
    if (id < elementCount) {
        outVector[id] = -inVector[id];
    }
}

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，2 月前
查看次数：	870 次
最近记录：	9 年，2 月前