32位和64位进程之间的memcpy性能差异

Question

32位和64位进程之间的memcpy性能差异

tim*_*day 9 memory windows cpu 64-bit 32-bit

我们有配备XP64的Core2机器(Dell T5400).

我们观察到,当运行32位进程时,memcpy的性能大约为1.2GByte/s; 然而,64位进程中的memcpy达到大约2.2GByte/s(或英特尔编译器CRT的memcpy为2.4GByte/s).虽然最初的反应可能只是解释这个因为64位代码中可用的寄存器更宽,但我们观察到我们自己的类似memcpy的SSE汇编代码(应该使用128位宽的加载存储而不管32位/ 64位过程)表明它实现的复制带宽有类似的上限.

我的问题是,这个差异究竟是由于什么原因造成的？32位进程是否必须通过一些额外的WOW64箍来获取RAM？这与TLB或prefetchers有什么关系还是......什么？

感谢您的任何见解.

也在英特尔论坛上提出.

Answer 1

Mec*_*cki 8

我认为以下内容可以解释它:

要将数据从内存复制到寄存器并返回到内存,可以

mov eax, [address]
mov [address2], eax

Run Code Online (Sandbox Code Playgroud)

这会将32位(4字节)从地址移动到地址2.64位模式下的64位也是如此

mov rax, [address]
mov [address2], rax

Run Code Online (Sandbox Code Playgroud)

这将64位,2字节从地址移动到地址2.根据英特尔的规格,"mov"本身,无论是64位还是32位,延迟为0.5,吞吐量为0.5.延迟是指令通过流水线所需的时钟周期数,吞吐量是CPU在再次接受相同指令之前必须等待的时间.正如您所看到的,它可以在每个时钟周期执行两个mov,但是,它必须在两个mov之间等待半个时钟周期,因此它实际上每个时钟周期只能执行一个mov(或者我错在这里并误解了这些术语？有关详细信息,请参见PDF.

当然,a mov reg, mem可以超过0.5个周期,具体取决于数据是在第一级还是第二级缓存中,还是在缓存中根本不需要,并且需要从内存中获取.但是,上面的延迟时间忽略了这个事实(正如我在上面链接的PDF状态),它假设已经存在mov所需的所有数据(否则延迟将增加从任何地方获取数据所需的时间.现在 - 这可能是几个时钟周期,完全独立于正在执行的命令,如第482/C-30页的PDF所示.

有趣的是,mov是32位还是64位都没有任何作用.这意味着除非内存带宽成为限制因素,否则64位mov的速度与32位mov相同,并且由于在使用64位时将相同数量的数据从A移动到B只需要一半的数量,因此吞吐量可以(理论上)是两倍高(事实上它不是因为记忆不是快速无限制).

好的,现在您认为使用更大的SSE寄存器时,您应该获得更快的吞吐量,对吧？AFAIK xmm寄存器不是256,而是128位宽,BTW(维基百科上的参考).但是,您是否考虑过延迟和吞吐量？要移动的数据是否为128位对齐.根据具体情况,您可以使用它移动它

movdqa xmm1, [address]
movdqa [address2], xmm1

Run Code Online (Sandbox Code Playgroud)

或者如果不对齐

movdqu xmm1, [address]
movdqu [address2], xmm1

Run Code Online (Sandbox Code Playgroud)

好吧,movdqa/movdqu的延迟为1,吞吐量为1.因此,指令需要两倍的时间才能执行,指令后的等待时间是普通mov的两倍.

而我们甚至没有考虑到的其他事实是CPU实际上将指令拆分为微操作并且可以并行执行这些操作.现在它变得非常复杂......对我来说太复杂了.

无论如何,我知道从向xmm寄存器加载数据或从xmm寄存器加载数据的速度比从正常寄存器加载数据慢得多,因此从第一秒起就注定要加速使用xmm寄存器进行传输的想法.我真的很惊讶,最后SSE memmove并不比正常情况慢得多.

Answer 2

tim*_*day 5

我终于到底了(并且参议员的回答是正确的,感谢)

在下面,dst和src是512 MByte std :: vector.我正在使用Intel 10.1.029编译器和CRT.

在64位上

memcpy(&dst[0],&src[0],dst.size())

和

memcpy(&dst[0],&src[0],N)

其中N是先前声明的const size_t N=512*(1<<20); 呼叫

__intel_fast_memcpy

其中大部分包括:

  000000014004ED80  lea         rcx,[rcx+40h] 
  000000014004ED84  lea         rdx,[rdx+40h] 
  000000014004ED88  lea         r8,[r8-40h] 
  000000014004ED8C  prefetchnta [rdx+180h] 
  000000014004ED93  movdqu      xmm0,xmmword ptr [rdx-40h] 
  000000014004ED98  movdqu      xmm1,xmmword ptr [rdx-30h] 
  000000014004ED9D  cmp         r8,40h 
  000000014004EDA1  movntdq     xmmword ptr [rcx-40h],xmm0 
  000000014004EDA6  movntdq     xmmword ptr [rcx-30h],xmm1 
  000000014004EDAB  movdqu      xmm2,xmmword ptr [rdx-20h] 
  000000014004EDB0  movdqu      xmm3,xmmword ptr [rdx-10h] 
  000000014004EDB5  movntdq     xmmword ptr [rcx-20h],xmm2 
  000000014004EDBA  movntdq     xmmword ptr [rcx-10h],xmm3 
  000000014004EDBF  jge         000000014004ED80

Run Code Online (Sandbox Code Playgroud)

并以~2200 MByte/s运行.

但在32位

memcpy(&dst[0],&src[0],dst.size())

电话

__intel_fast_memcpy

其中大部分由

  004447A0  sub         ecx,80h 
  004447A6  movdqa      xmm0,xmmword ptr [esi] 
  004447AA  movdqa      xmm1,xmmword ptr [esi+10h] 
  004447AF  movdqa      xmmword ptr [edx],xmm0 
  004447B3  movdqa      xmmword ptr [edx+10h],xmm1 
  004447B8  movdqa      xmm2,xmmword ptr [esi+20h] 
  004447BD  movdqa      xmm3,xmmword ptr [esi+30h] 
  004447C2  movdqa      xmmword ptr [edx+20h],xmm2 
  004447C7  movdqa      xmmword ptr [edx+30h],xmm3 
  004447CC  movdqa      xmm4,xmmword ptr [esi+40h] 
  004447D1  movdqa      xmm5,xmmword ptr [esi+50h] 
  004447D6  movdqa      xmmword ptr [edx+40h],xmm4 
  004447DB  movdqa      xmmword ptr [edx+50h],xmm5 
  004447E0  movdqa      xmm6,xmmword ptr [esi+60h] 
  004447E5  movdqa      xmm7,xmmword ptr [esi+70h] 
  004447EA  add         esi,80h 
  004447F0  movdqa      xmmword ptr [edx+60h],xmm6 
  004447F5  movdqa      xmmword ptr [edx+70h],xmm7 
  004447FA  add         edx,80h 
  00444800  cmp         ecx,80h 
  00444806  jge         004447A0

Run Code Online (Sandbox Code Playgroud)

并且仅以~1350 MByte/s运行.

然而

memcpy(&dst[0],&src[0],N)

Run Code Online (Sandbox Code Playgroud)

其中N先前被声明const size_t N=512*(1<<20);编译(在32位上)直接调用a

__intel_VEC_memcpy

Run Code Online (Sandbox Code Playgroud)

其中大部分由

  0043FF40  movdqa      xmm0,xmmword ptr [esi] 
  0043FF44  movdqa      xmm1,xmmword ptr [esi+10h] 
  0043FF49  movdqa      xmm2,xmmword ptr [esi+20h] 
  0043FF4E  movdqa      xmm3,xmmword ptr [esi+30h] 
  0043FF53  movntdq     xmmword ptr [edi],xmm0 
  0043FF57  movntdq     xmmword ptr [edi+10h],xmm1 
  0043FF5C  movntdq     xmmword ptr [edi+20h],xmm2 
  0043FF61  movntdq     xmmword ptr [edi+30h],xmm3 
  0043FF66  movdqa      xmm4,xmmword ptr [esi+40h] 
  0043FF6B  movdqa      xmm5,xmmword ptr [esi+50h] 
  0043FF70  movdqa      xmm6,xmmword ptr [esi+60h] 
  0043FF75  movdqa      xmm7,xmmword ptr [esi+70h] 
  0043FF7A  movntdq     xmmword ptr [edi+40h],xmm4 
  0043FF7F  movntdq     xmmword ptr [edi+50h],xmm5 
  0043FF84  movntdq     xmmword ptr [edi+60h],xmm6 
  0043FF89  movntdq     xmmword ptr [edi+70h],xmm7 
  0043FF8E  lea         esi,[esi+80h] 
  0043FF94  lea         edi,[edi+80h] 
  0043FF9A  dec         ecx  
  0043FF9B  jne         ___intel_VEC_memcpy+244h (43FF40h)

Run Code Online (Sandbox Code Playgroud)

并以~2100MByte/s运行(证明32位不是以某种方式限制带宽).

我撤回了我的说法,即我自己的类似memcpy的SSE代码在32位版本中遭受类似的~1300 MByte /限制; 我现在在32或64bit上获得> 2GByte/s时没有任何问题; 诀窍(如上面的结果提示)是使用非时间("流")存储(例如_mm_stream_ps内在).

32bit" dst.size()"memcpy最终没有调用更快的" movnt"版本似乎有点奇怪(如果你进入memcpy,那里有最令人难以置信的CPUID检查量和启发式逻辑,例如比较要复制的字节数和缓存大小等在它接近你的实际数据之前的任何地方)但至少我现在理解观察到的行为(并且它不是SysWow64或H/W相关).

Answer 3

Die*_*nte 3

当然，您确实需要通过使用调试器单步执行机器代码来查看在 memcpy 最内层循环内执行的实际机器指令。其他任何事情都只是猜测。

我的问题是，它可能与 32 位与 64 位本身没有任何关系；我的猜测是更快的库例程是使用 SSE 非临时存储编写的。

如果内部循环包含传统加载-存储指令的任何变体，则必须将目标存储器读入机器的高速缓存、修改并写回。由于该读取完全没有必要——正在读取的位会立即被覆盖——您可以通过使用绕过缓存的“非临时”写入指令来节省一半的内存带宽。这样，目标内存就被写入到内存的单向行程而不是往返。

我不知道Intel编译器的CRT库，所以这只是一个猜测。没有什么特别的原因为什么 32 位 libCRT 不能做同样的事情，但是你引用的加速是在我所期望的范围内，只需将 movdqa 指令转换为 movnt...

由于 memcpy 不执行任何计算，因此它始终受读写内存的速度限制。

归档时间：	17 年，3 月前
查看次数：	8592 次
最近记录：	15 年，1 月前