Yig*_*rag 5 c++ parallel-processing performance simd avx2
我在AVX2上工作,需要计算64位x64位 - > 128位加宽乘法,并以最快的方式获得64位高位.由于AVX2没有这样的指令,使用Karatsuba算法提高效率和提高速度是否合理?
在现代架构中,Karatsuba击败教科书倍增的交叉通常介于8到24个机器字之间(例如x86_64上的512到1536位之间).对于固定大小,阈值处于该范围的较小端,并且新的ADCX/ADOX指令可能会使标量代码稍微进一步,但64x64仍然太小而无法从Karatsuba中受益.
归档时间: |
|
查看次数: |
1316 次 |
最近记录: |