标签: vectorization

为什么在单独的循环中元素添加比在组合循环中快得多？

假设a1,b1,c1,并d1指向堆内存和我的数字代码具有下列核心循环.

const int n = 100000;

for (int j = 0; j < n; j++) {
    a1[j] += b1[j];
    c1[j] += d1[j];
}

Run Code Online (Sandbox Code Playgroud)

该循环通过另一个外for循环执行10,000次.为了加快速度,我将代码更改为:

for (int j = 0; j < n; j++) {
    a1[j] += b1[j];
}

for (int j = 0; j < n; j++) {
    c1[j] += d1[j];
}

Run Code Online (Sandbox Code Playgroud)

在MS Visual C++ 10.0上进行了全面优化编译,在Intel Core 2 Duo(x64)上为32位启用了SSE2,第一个示例需要5.5秒,双循环示例仅需1.9秒.我的问题是:(请参考我在底部的改写问题)

PS:我不确定,如果这有帮助:

第一个循环的反汇编基本上是这样的(这个块在整个程序中重复大约五次):

movsd       xmm0,mmword ptr [edx+18h]
addsd …

Run Code Online (Sandbox Code Playgroud)

c c++ performance vectorization compiler-optimization

Joh*_*rer

2018 05-31

2175
推荐指数

9
解决办法

23万
查看次数

Pandas中map,applymap和apply方法之间的区别

你能告诉我什么时候使用这些矢量化方法和基本的例子吗？

我看到这map是一种Series方法,而其余的是DataFrame方法.我对此感到困惑apply和applymap方法.为什么我们有两种方法将函数应用于DataFrame？再一次,说明用法的简单例子会很棒!

python vectorization dataframe pandas

mar*_*ion

2019 01-21

409
推荐指数

9
解决办法

26万
查看次数

是否有R函数用于查找向量中元素的索引？

在R中,我有一个元素x和一个向量v.我想找到一个元素的第一个索引v,它等于x.我知道这样做的一种方法是:which(x == v)[[1]],但这似乎效率过低.有更直接的方法吗？

对于奖励积分,是否有一个功能,如果x是一个矢量？也就是说,它应该返回一个索引向量,指示xin 的每个元素的位置v.

indexing r vectorization match

Rya*_*son

2011 04-07

290
推荐指数

4
解决办法

48万
查看次数

什么是"矢量化"？

好几次,我在matlab,fortran ......中遇到过这个术语......但是我从来没有找到解释是什么意思,它有什么作用？所以我在这里问,什么是矢量化,例如,"循环是矢量化的"是什么意思？

vectorization

Tho*_*zma

lucky-day

154
推荐指数

6
解决办法

6万
查看次数

"*apply"系列真的没有矢量化吗？

因此,我们习惯于对每个R新用户说" apply没有矢量化,请查看Patrick Burns R Inferno Circle 4 ",其中说(我引用):

常见的反射是使用apply系列中的函数.这不是 矢量化,而是循环隐藏.apply函数在其定义中有一个for循环.lapply函数掩盖了循环,但执行时间往往大致等于显式for循环.

实际上,快速查看apply源代码会显示循环:

grep("for", capture.output(getAnywhere("apply")), value = TRUE)
## [1] "        for (i in 1L:d2) {"  "    else for (i in 1L:d2) {"

Run Code Online (Sandbox Code Playgroud)

好到目前为止,但看看lapply或vapply实际上揭示了一个完全不同的图片:

lapply
## function (X, FUN, ...) 
## {
##     FUN <- match.fun(FUN)
##     if (!is.vector(X) || is.object(X)) 
##        X <- as.list(X)
##     .Internal(lapply(X, FUN))
## }
## <bytecode: 0x000000000284b618>
## <environment: namespace:base>

Run Code Online (Sandbox Code Playgroud)

所以显然没有R for环隐藏在那里,而是他们调用内部C编写的函数.

兔子洞的快速浏览显示了几乎相同的图片

此外,让我们以 …

performance loops r vectorization apply

Dav*_*urg

2015 03-12

132
推荐指数

4
解决办法

7851
查看次数

在NumPy阵列的每个单元处有效地评估函数

给定NumPy数组A,将相同函数f应用于每个单元格的最快/最有效的方法是什么？

假设我们将分配给A(I,J)的F(A(I,J)) .
函数f没有二进制输出,因此掩码(ing)操作无济于事.

"明显的"双循环迭代(通过每个单元格)是最优解吗？

python performance numpy function vectorization

Pet*_*ter

2014 03-15

123
推荐指数

2
解决办法

11万
查看次数

如何在MATLAB中将函数应用于矩阵的每一行/列？

例如,v + 1您可以通过说,或者您可以使用该函数,将函数应用于向量中的每个项目arrayfun.如何在不使用for循环的情况下为矩阵的每一行/列执行此操作？

matlab function matrix vectorization

Fur*_*lon

2017 05-05

103
推荐指数

6
解决办法

10万
查看次数

是否有任何JVM的JIT编译器生成使用向量化浮点指令的代码？

假设我的Java程序的瓶颈确实是计算一堆矢量点积的一些紧密循环.是的我已经分析过,是的,它是瓶颈,是的,它是重要的,是的,这就是算法是什么,是的,我运行Proguard来优化字节码等.

这项工作基本上是点产品.因为,我有两个float[50],我需要计算成对产品的总和.我知道处理器指令集可以快速和批量地执行这些操作,如SSE或MMX.

是的我可以通过在JNI中编写一些本机代码来访问它们.JNI电话证明非常昂贵.

我知道你无法保证JIT编译或编译的内容.有没有人曾经听说过使用这些指令的JIT生成的代码？如果有的话,有什么关于Java代码可以帮助它以这种方式编译吗？

可能是"不"; 值得一提.

java floating-point jit sse vectorization

Sea*_*wen

lucky-day

91
推荐指数

4
解决办法

2万
查看次数

对于有熊猫的循环 - 我什么时候应该关心？

我熟悉"矢量化"的概念,以及熊猫如何使用矢量化技术来加速计算.矢量化函数在整个系列或DataFrame上广播操作,以实现比传统迭代数据更大的加速.

但是,我很惊讶地看到很多代码(包括Stack Overflow的答案)提供了解决问题的方法,这些问题涉及使用for循环和列表推导来循环数据.阅读完文档后,对API有了不错的理解,我认为循环是"坏的",并且应该"永远"迭代数组,系列或DataFrame.那么,为什么我会不时地看到用户提出循环解决方案呢？

因此,要总结......我的问题是:
是否for循环真正的"坏"？如果不是,在什么情况下它们会比使用更传统的"矢量化"方法更好？¹

_{1 - 虽然这个问题确实听起来有点宽泛,但事实是,当for循环通常比传统的迭代数据更好时,存在非常具体的情况.这篇文章旨在为后人捕捉这一点.}

python iteration list-comprehension vectorization pandas

cs9*_*s95

2019 07-13

85
推荐指数

2
解决办法

7819
查看次数