Dav*_*osh 7 c crc32 sse crc sse4
世界上为什么_mm_crc32_u64(...)这样定义?
unsigned int64 _mm_crc32_u64( unsigned __int64 crc, unsigned __int64 v );
Run Code Online (Sandbox Code Playgroud)
"crc32"指令总是累加32位CRC,而不是 64位CRC(毕竟,CRC32不是CRC64).如果机器指令CRC32 恰好具有64位目标操作数,则忽略高32位,并在完成时填充0,因此没有使用EVER具有64位目标.我理解为什么英特尔允许在指令上使用64位目标操作数(为了均匀性),但是如果我想快速处理数据,我想要一个尽可能大的源操作数(即如果我有那么多数据,则为64位,尾部较小)并且始终是32位目标操作数.但内在函数不允许使用64位源和32位目标.注意其他内在函数:
unsigned int _mm_crc32_u8 ( unsigned int crc, unsigned char v );
Run Code Online (Sandbox Code Playgroud)
"crc"的类型不是8位类型,也不是返回类型,它们是32位.为什么没有
unsigned int _mm_crc32_u64 ( unsigned int crc, unsigned __int64 v );
Run Code Online (Sandbox Code Playgroud)
?英特尔指令支持这一点,这是最有意义的内在因素.
有没有人有可移植代码(Visual Studio和GCC)来实现后者的内在?谢谢. 我的猜测是这样的:
#define CRC32(D32,S) __asm__("crc32 %0, %1" : "+xrm" (D32) : ">xrm" (S))
Run Code Online (Sandbox Code Playgroud)
对于GCC,和
#define CRC32(D32,S) __asm { crc32 D32, S }
Run Code Online (Sandbox Code Playgroud)
对于VisualStudio.不幸的是,我对约束如何工作几乎一无所知,并且对汇编级编程的语法和语义缺乏经验.
小编辑:记下我定义的宏:
#define GET_INT64(P) *(reinterpret_cast<const uint64* &>(P))++
#define GET_INT32(P) *(reinterpret_cast<const uint32* &>(P))++
#define GET_INT16(P) *(reinterpret_cast<const uint16* &>(P))++
#define GET_INT8(P) *(reinterpret_cast<const uint8 * &>(P))++
#define DO1_HW(CR,P) CR = _mm_crc32_u8 (CR, GET_INT8 (P))
#define DO2_HW(CR,P) CR = _mm_crc32_u16(CR, GET_INT16(P))
#define DO4_HW(CR,P) CR = _mm_crc32_u32(CR, GET_INT32(P))
#define DO8_HW(CR,P) CR = (_mm_crc32_u64((uint64)CR, GET_INT64(P))) & 0xFFFFFFFF;
Run Code Online (Sandbox Code Playgroud)
注意最后一个宏语句的不同之处.缺乏统一性当然表明内在性尚未明确定义.虽然没有必要(uint64)在最后一个宏中放入显式转换,但它是隐式的并且确实发生了.反汇编生成的代码显示了转换32-> 64和64-> 32的代码,这两者都是不必要的.
换句话说,它是_mm_crc32_u64,不是 _mm_crc64_u64,但他们已经实现了它,仿佛它是后者.
如果我能得到CRC32上面的定义是正确的,那么我想将我的宏改为
#define DO1_HW(CR,P) CR = CRC32(CR, GET_INT8 (P))
#define DO2_HW(CR,P) CR = CRC32(CR, GET_INT16(P))
#define DO4_HW(CR,P) CR = CRC32(CR, GET_INT32(P))
#define DO8_HW(CR,P) CR = CRC32(CR, GET_INT64(P))
Run Code Online (Sandbox Code Playgroud)
Sco*_*ttD 11
提供的4个内部函数确实允许所有可能使用的英特尔定义的CRC32指令.指令输出始终为32位,因为指令被硬编码为使用特定的32位CRC多项式.但是,该指令允许您的代码一次向其输入8,16,32或64位输入数据.一次处理64位应最大化吞吐量.如果限制为32位构建,则一次处理32位是最好的.如果输入字节数是奇数或不是4/8的倍数,则一次处理8位或16位可以简化代码逻辑.
#include <stdio.h>
#include <stdint.h>
#include <intrin.h>
int main (int argc, char *argv [])
{
int index;
uint8_t *data8;
uint16_t *data16;
uint32_t *data32;
uint64_t *data64;
uint32_t total1, total2, total3;
uint64_t total4;
uint64_t input [] = {0x1122334455667788, 0x1111222233334444};
total1 = total2 = total3 = total4 = 0;
data8 = (void *) input;
data16 = (void *) input;
data32 = (void *) input;
data64 = (void *) input;
for (index = 0; index < sizeof input / sizeof *data8; index++)
total1 = _mm_crc32_u8 (total1, *data8++);
for (index = 0; index < sizeof input / sizeof *data16; index++)
total2 = _mm_crc32_u16 (total2, *data16++);
for (index = 0; index < sizeof input / sizeof *data32; index++)
total3 = _mm_crc32_u32 (total3, *data32++);
for (index = 0; index < sizeof input / sizeof *data64; index++)
total4 = _mm_crc32_u64 (total4, *data64++);
printf ("CRC32 result using 8-bit chunks: %08X\n", total1);
printf ("CRC32 result using 16-bit chunks: %08X\n", total2);
printf ("CRC32 result using 32-bit chunks: %08X\n", total3);
printf ("CRC32 result using 64-bit chunks: %08X\n", total4);
return 0;
}
Run Code Online (Sandbox Code Playgroud)
小智 4
有人有可移植代码(Visual Studio 和 GCC)来实现后一个内在函数吗?谢谢。
我和我的朋友编写了一个 C++ sse 内在函数包装器,其中包含 64 位 src 的 crc32 指令的更优选用法。
http://code.google.com/p/sse-intrinsics/
请参阅 i_crc32() 指令。(遗憾的是,其他指令上的英特尔 sse 内在规范存在更多缺陷,请参阅此页面以获取有缺陷的内在设计的更多示例)