如何将CUDA固定的“零复制”内存用于内存映射文件？

Question

如何将CUDA固定的“零复制”内存用于内存映射文件？

San*_*ta7 4 memory-management cuda numpy chainer cupy

目标/问题

在Python中，我正在寻找一种从内存映射文件到GPU读取/写入数据的快速方法。

在先前的SO溢出文章中[ 当在内存映射模式下尝试cupy.load较大尺寸的.npy文件时，cupy OutOfMemoryError，但np.load可以正常工作 ]

在提到的地方，可以使用CUDA固定的“零复制”存储器。此外，尽管该人员正在使用C ++ 进行开发，但该方法似乎是由该人员开发的[ cuda-零拷贝内存，内存映射文件 ]。

我以前的尝试是在Cupy中进行的，但是我可以接受任何cuda方法。

到目前为止我尝试过的

我提到了我如何使用Cupy的方法，它允许您以内存映射模式打开numpy文件。

import os
import numpy as np
import cupy

#Create .npy files. 
for i in range(4):
    numpyMemmap = np.memmap( 'reg.memmap'+str(i), dtype='float32', mode='w+', shape=( 2200000 , 512))
    np.save( 'reg.memmap'+str(i) , numpyMemmap )
    del numpyMemmap
    os.remove( 'reg.memmap'+str(i) )

# Check if they load correctly with np.load.
NPYmemmap = []
for i in range(4):
    NPYmemmap.append( np.load( 'reg.memmap'+str(i)+'.npy' , mmap_mode = 'r+' )  )
del NPYmemmap

# Eventually results in memory error. 
CPYmemmap = []
for i in range(4):
    print(i)
    CPYmemmap.append( cupy.load( 'reg.memmap'+str(i)+'.npy' , mmap_mode = 'r+' )  )

Run Code Online (Sandbox Code Playgroud)

我尝试过的结果

我的尝试导致 OutOfMemoryError:

有人提到

看起来cupy.load将要求整个文件首先放入主机内存，然后放入设备内存。

还有人提到

CuPy无法处理mmap内存。因此，默认情况下，CuPy直接使用GPU内存。 https://docs-cupy.chainer.org/zh_CN/stable/reference/生成的 /cupy.cuda.MemoryPool.html#cupy.cuda.MemoryPool.malloc如果要使用统一内存，可以更改默认内存分配器。

我尝试使用

cupy.cuda.set_allocator(cupy.cuda.MemoryPool(cupy.cuda.memory.malloc_managed).malloc)

但这似乎没有什么不同。在发生错误时，我的CPU内存为〜16演出，但我的GPU内存为0.32演出。我正在使用Google colab，其中我的CPU Ram为25个演出，GPU Ram为12个演出。因此，在将整个文件托管在主机内存中之后，它看起来像是在检查它是否可以容纳在设备内存中，并且当发现它在所需的16个演出中只有12个演出时，抛出了错误（我的最佳猜测）。

因此，现在我试图找出一种使用固定的“零复制”内存来处理将数据馈送到GPU的内存映射文件的方法。

如果重要的话，我尝试传输的数据类型是浮点数组。通常，对于只读数据，二进制文件会加载到GPU内存中，但是我正在处理数据，因此我尝试在每一步都进行读写操作。

Answer 1

Rob*_*lla 5

在我看来，当前cupy没有提供固定的分配器来代替普通的设备内存分配器，即可以用作固定的分配器cupy.ndarray。如果这对您很重要，那么您可以考虑提出一个冒号的问题。

但是，似乎可以创建一个。这应视为实验代码。并且有一些与其使用相关的问题。

基本思想是，我们将使用cupy.cuda.set_allocator已经建议的方式，用我们自己的来替换cupy的默认设备内存分配器。我们需要提供自己的替代品，以BaseMemory用作的存储库cupy.cuda.memory.MemoryPointer。此处的主要区别在于，我们将使用固定的内存分配器而不是设备分配器。这是PMemory以下课程的要点。

需要注意的其他事项：

在使用固定的内存（分配）完成所需的操作之后，您可能应该将cupy分配器恢复为其默认值。不幸的是，与不同cupy.cuda.set_allocator，我没有找到对应的cupy.cuda.get_allocator，这使我感到不足cupy，这似乎也值得向我提出杯状问题。但是，对于本演示，我们将仅返回到None使用默认设备内存分配器之一的选择（但是不使用池分配器）。
通过提供这种最小的固定内存分配器，我们仍然建议cupy这是普通的设备内存。这意味着不能直接从宿主代码访问它（实际上，但是cupy不知道）。因此，各种操作（例如cupy.load）将创建不需要的主机分配和不需要的复制操作。我认为解决这个问题将需要的不仅是我建议的小改变。但至少对于您的测试用例，此额外开销可能是可管理的。看来您想一次从磁盘加载数据，然后将其保留在那里。对于这种类型的活动，这应该是可管理的，尤其是因为您将其分为多个部分。就像我们将看到的那样，对于25GB的主机内存来说，处理四个5GB的块实在太多了。我们将需要为四个5GB块（实际上是固定的）分配主机内存，并且还需要一个额外的5GB“开销”缓冲区的额外空间。因此25GB不足以实现这一目标。但是出于演示目的，
与cupy的默认设备内存分配器关联的普通设备内存与特定设备有关联。固定的内存不必具有这样的关联，但是BaseMemory用类似的类对我们的琐碎替换意味着我们建议cupy该“设备”内存与所有其他普通的设备内存一样，具有特定的设备关联。在您这样的单个设备设置中，这种区别是没有意义的。但是，这不适用于固定内存的强大多设备使用。为此，再次建议cupy是通过提出问题来对进行更有效的更改。

这是一个例子：

import os
import numpy as np
import cupy



class PMemory(cupy.cuda.memory.BaseMemory):
    def __init__(self, size):
        self.size = size
        self.device_id = cupy.cuda.device.get_device_id()
        self.ptr = 0
        if size > 0:
            self.ptr = cupy.cuda.runtime.hostAlloc(size, 0)
    def __del__(self):
        if self.ptr:
            cupy.cuda.runtime.freeHost(self.ptr)

def my_pinned_allocator(bsize):
    return cupy.cuda.memory.MemoryPointer(PMemory(bsize),0)

cupy.cuda.set_allocator(my_pinned_allocator)

#Create 4 .npy files, ~4GB each
for i in range(4):
    print(i)
    numpyMemmap = np.memmap( 'reg.memmap'+str(i), dtype='float32', mode='w+', shape=( 10000000 , 100))
    np.save( 'reg.memmap'+str(i) , numpyMemmap )
    del numpyMemmap
    os.remove( 'reg.memmap'+str(i) )

# Check if they load correctly with np.load.
NPYmemmap = []
for i in range(4):
    print(i)
    NPYmemmap.append( np.load( 'reg.memmap'+str(i)+'.npy' , mmap_mode = 'r+' )  )
del NPYmemmap

# allocate pinned memory storage
CPYmemmap = []
for i in range(4):
    print(i)
    CPYmemmap.append( cupy.load( 'reg.memmap'+str(i)+'.npy' , mmap_mode = 'r+' )  )
cupy.cuda.set_allocator(None)

Run Code Online (Sandbox Code Playgroud)

我没有在具有这些文件大小的25GB主机内存的安装程序中对此进行测试。但是我已经用超过我GPU的设备内存的其他文件大小对其进行了测试，并且它似乎可以工作。

同样，未经彻底测试的实验性代码可能会有所不同，因此最好通过提交大量的github问题来实现此功能。而且，正如我之前提到的，从设备代码访问这种“设备内存”通常比普通cupy设备内存要慢得多。

最后，这并不是真正的“内存映射文件”，因为所有文件内容都将被加载到主机内存中，此外，这种方法“用完”主机内存。如果要访问20GB的文件，则将需要超过20GB的主机内存。只要“加载”了这些文件，就会使用20GB的主机内存。

归档时间：	6 年，2 月前
查看次数：	370 次
最近记录：	6 年，1 月前