kmalloc的内存很慢

Question

kmalloc的内存很慢

我们有一个应用程序,需要大约1MB缓冲区才能填充硬件设备,因此我们编写了一个使用kmalloc()分配缓冲区的内核模块.我们没有使用dma_alloc_coherent(),因为我们需要操纵缓冲区,因此希望它们被缓存(我们在需要时刷新缓存).其中一个操作是内核模块将一个缓冲区复制到另一个缓冲区.在计时这些副本时,我们看到复制缓冲区需要大约2ms.该时间不包括任何缓存刷新.

由于这似乎很慢,我们编写了一个标准的用户空间测试应用程序,它使用malloc()创建1MB缓冲区并复制它们.用户空间副本大约需要0.5毫秒,这大约是在我们正在使用的处理器/内存配置上移动此内存量的正确时间.

认为我们尝试过:为了确保它在内核空间和用户空间中不是一个不同的memcpy(),我们编写了自己的NEON优化副本,但没有任何区别.将缓冲区大小从100KB更改为10MB并没有任何区别.所有时间都超过10份,但始终非常一致.时间例程在用户空间中使用gettimeofday().

我们唯一可以想到的是,对于kmalloc()'ed memory然后malloc()'ed memory,数据缓存设置不同？

我们正在研究iMX6 ARM,Linaro kerne.

Answer 1

art*_*ise 2

内存kmalloc()在物理空间中将是连续的。用户空间肯定不会（mlock()可能会导致更接近连续）。如果您有多个 SDRAM 芯片，您的内存控制器可能允许同时对不同芯片进行流水线操作或多个问题读/写。如果有多家银行，速度可能会更快。 vmalloc()不会使用连续的页面。^Ref 您应该能够编写一个测试来kmalloc()与vmalloc(). 如果较新的 ARM 发生了某些变化并且缓存不是VIVT，则物理地址的差异可能会导致某些处理器上的缓存（别名？）效应。

我不认为内核内存和用户内存的缓存设置不同；至少有 2.6.34 变体；但它们可能来自不同的池。另外，memcpy()不需要很大的缓存；您只需要足够的容量来确保 SDRAM 会爆裂。

另一个问题是外围设备。例如，一个芯片上的大型图形缓冲区可能会通过 DMA 窃取周期。如果您可以更改计算机文件或设备表以禁用尽可能多的驱动程序，则可以消除这种情况。这与管道相结合可以解释所观察到的减速类型。

我认为这是一个平台问题。如果严格来说是Linux，我想数百万用户之一可能已经遇到过它。但是，您还没有给出具体的 Linux 版本。这可能是基于 ARM 的问题；所以我这样标记它。我认为这是你的平台/ARM组合；只是因为其他人会观察到这一点。您还可以提供您的设计所基于的特定机器文件或设备表以及 Linux 版本吗？

归档时间：	13 年，2 月前
查看次数：	895 次
最近记录：	12 年，10 月前