小编Pha*_*aun的帖子

如何使用SSE指令集绝对2双或4浮点数？(截至SSE4)

这是我尝试使用SSE加速的示例C代码,两个数组是3072元素长的双精度数,如果我不需要双精度,可以将其下放到浮点数.

double sum = 0.0;

for(k = 0; k < 3072; k++) {
    sum += fabs(sima[k] - simb[k]);
}

double fp = (1.0 - (sum / (255.0 * 1024.0 * 3.0)));

Run Code Online (Sandbox Code Playgroud)

无论如何,我目前的问题是如何在SSE寄存器中执行fabs步骤为double或float,以便我可以将整个计算保留在SSE寄存器中,以便它保持快速,并且我可以通过部分展开此循环来并行化所有步骤.

这里有一些资源我发现了fabs()asm或者可能会翻转这个标志 -但是第二个的弱点需要有条件的检查.

gcc sse

Pha*_*aun

2017 05-23

16
推荐指数

3
解决办法

9931
查看次数

是否有算法来确定有多少日光？

是否有一个函数/算法允许我输入地球的纬度和近似轨道位置,以便我可以确定太阳升起了多长时间？IE在冬季会显示太阳在远北半球只有几个小时.

我做了一些基本的谷歌搜索,并没有找到太多,所以我想我可能不得不做一些三角法,这将允许我计算地球倾向于或不对太阳,然后使用该信息和纬度来弄清楚一个网站将获得多少阳光.

latitude-longitude

Pha*_*aun

2012 04-30

15
推荐指数

2
解决办法

893
查看次数

用Python锁定免费只读列表？

我已经做了一些基本的性能和内存消耗基准测试,我想知道是否有任何方法可以让事情变得更快......

我有一个巨大的70,000元素列表,其中包含numpy ndarray,以及所述列表中元组中的文件路径.
我的第一个版本将列表的切片副本传递给python多进程模块中的每个进程,但是它会将ram使用率扩展到20多GB以上
第二个版本我将它移动到全局空间并通过索引(例如foo [i])在我的每个进程的循环中访问它,这似乎将它放入共享内存区域/ CoW语义中,因此它不会爆炸内存使用率(停留在~3 GB)
然而,根据性能基准测试/追踪,似乎大部分应用时间现在花在"获取"模式上......

所以我想知道是否有任何方式我可以以某种方式将此列表转换为某种无锁/只读,以便我可以取消部分获取步骤,以帮助加快访问速度.

编辑1:这是应用程序概要分析的前几行输出

ncalls  tottime  percall  cumtime  percall filename:lineno(function)
   65 2450.903   37.706 2450.903   37.706 {built-in method acquire}
39320    0.481    0.000    0.481    0.000 {method 'read' of 'file' objects}
  600    0.298    0.000    0.298    0.000 {posix.waitpid}
   48    0.271    0.006    0.271    0.006 {posix.fork}

Run Code Online (Sandbox Code Playgroud)

编辑2:这是列表结构的一个例子:

# Sample code for a rough idea of how the list is constructed
sim = []
for root, dirs, files in os.walk(rootdir):
    path = os.path.join(root, filename)
    image= Image.open(path)
    np_array = …

Run Code Online (Sandbox Code Playgroud)

python performance numpy

Pha*_*aun

2011 01-21

9
推荐指数

1
解决办法

1771
查看次数