相关疑难解决方法(0)

SIMD代码比标量代码运行得慢

elma并且elmc都是unsigned long数组.所以是res1和res2.

unsigned long simdstore[2];  
__m128i *p, simda, simdb, simdc;  
p = (__m128i *) simdstore;  

for (i = 0; i < _polylen; i++)  
{
    u1 = (elma[i] >> l) & 15;  
    u2 = (elmc[i] >> l) & 15;  
    for (k = 0; k < 20; k++)  
    {
        //res1[i + k] ^= _mulpre1[u1][k];  
        //res2[i + k] ^= _mulpre2[u2][k];               

        simda = _mm_set_epi64x (_mulpre2[u2][k], _mulpre1[u1][k]);  
        simdb = _mm_set_epi64x (res2[i + k], res1[i + k]); …

Run Code Online (Sandbox Code Playgroud)

c optimization sse simd sse2

anu*_*nup

2013 03-10

5
推荐指数

2
解决办法

3210
查看次数