屏蔽能否提高 AVX-512 内存操作(加载/存储/聚集/分散和非洗牌加载操作)的性能?
鉴于屏蔽元素不会触发内存错误,人们会认为屏蔽在这些情况下有助于提高性能,但是,如果使用 0 屏蔽,则以下情况会怎样:
目前,这将是在当前英特尔处理器的背景下,但了解支持 AVX-512 的 AMD 处理器如何处理此问题将会很有趣。
我有一个node.js应用程序,尽管heapUsed/heapTotal保持相对稳定,但RSS内存使用似乎仍在增长.
这是一周(从process.memoryUsage()
)获得的三次内存测量的图表:
您可能会注意到有一些循环模式 - 这与应用程序在每天的活动相对应.
实际上堆中似乎有一点点增长,尽管它远不及RSS增长.所以我一直在使用堆转储(使用node-heapdump),并使用Chrome的堆比较功能来查找泄漏.
一个这样的比较可能如下所示(按大小增量按降序排序):
实际显示的内容取决于拍摄快照的时间(例如,有时会分配更多的缓冲区对象等) - 这里我尝试采用最能说明问题的示例.
首先要注意的是左侧的尺寸(203MB对345MB)远远高于图中显示的堆尺寸.其次,大小增量显然与142MB的差异不匹配.事实上,按大小增量按升序排序,许多对象已被释放,这意味着堆应该更小!
有没有人有任何想法:
其他细节:
节点版本:0.10.28
OS:Ubuntu 12.04,64 位
更新:正在使用的模块列表:
谢谢阅读.
英特尔的内在指南列出了 AVX-512 K*掩码指令的一些内在函数,但似乎有一些缺失:
英特尔开发人员手册声称内在函数不是必需的,因为它们是由编译器自动生成的.一个人怎么做呢?如果这意味着__mmask*类型可以被视为常规整数,那么它会很有意义,但是测试类似的东西mask << 4
似乎会导致编译器将掩码移动到常规寄存器,移位它,然后移回掩码.这是使用Godbolt最新的GCC和ICC 测试的-O2 -mavx512bw
.
同样有趣的是,内在函数只处理__mmask16
而不是其他类型.我没有测试太多,但看起来ICC不介意采用不正确的类型,但GCC似乎确实尝试确保掩码中只有16位,如果你使用内在函数.
我是不是在寻找上述指令的正确内在函数,以及其他__mmask*类型的变体,还是有其他方法可以实现相同的东西而不需要求助于内联汇编?
avx512 ×2
x86 ×2
assembly ×1
avx ×1
c ×1
gcc ×1
icc ×1
intrinsics ×1
memory-leaks ×1
node.js ×1
performance ×1
sse ×1