arrayfun可能比matlab中的显式循环慢得多.为什么？

Question

arrayfun可能比matlab中的显式循环慢得多.为什么？

考虑以下简单的速度测试arrayfun:

T = 4000;
N = 500;
x = randn(T, N);
Func1 = @(a) (3*a^2 + 2*a - 1);

tic
Soln1 = ones(T, N);
for t = 1:T
    for n = 1:N
        Soln1(t, n) = Func1(x(t, n));
    end
end
toc

tic
Soln2 = arrayfun(Func1, x);
toc

Run Code Online (Sandbox Code Playgroud)

在我的机器上(Linux Mint 12上的Matlab 2011b),该测试的输出是:

Elapsed time is 1.020689 seconds.
Elapsed time is 9.248388 seconds.

Run Code Online (Sandbox Code Playgroud)

什么了？!？arrayfun虽然公认的解决方案更清洁,但速度要慢一个数量级.这里发生了什么？

此外,我做了类似的测试方式cellfun,发现它比显式循环慢约3倍.同样,这个结果与我的预期相反.

我的问题是:为什么是arrayfun和cellfun这么多慢？鉴于此,有没有充分的理由使用它们(除了使代码看起来很好)？

注意:我说的是arrayfun这里的标准版本,而不是并行处理工具箱中的GPU版本.

编辑:为了清楚起见,我知道Func1上面可以按照Oli的指示进行矢量化.我只选择了它,因为它为实际问题提供了简单的速度测试.

编辑:根据grungetta的建议,我重新做了测试feature accel off.结果是:

Elapsed time is 28.183422 seconds.
Elapsed time is 23.525251 seconds.

Run Code Online (Sandbox Code Playgroud)

换句话说,差异的一大部分似乎是JIT加速器在加速显式for循环方面比它更好arrayfun.这对我来说似乎很奇怪,因为arrayfun实际上提供了更多的信息,即它的使用揭示了调用的顺序Func1并不重要.另外,我注意到JIT加速器是打开还是关闭,我的系统只使用一个CPU ......

Answer 1

ang*_*nor 101

您可以通过运行其他版本的代码来实现这个想法.考虑明确写出计算,而不是在循环中使用函数

tic
Soln3 = ones(T, N);
for t = 1:T
    for n = 1:N
        Soln3(t, n) = 3*x(t, n)^2 + 2*x(t, n) - 1;
    end
end
toc

Run Code Online (Sandbox Code Playgroud)

在我的电脑上计算的时间:

Soln1  1.158446 seconds.
Soln2  10.392475 seconds.
Soln3  0.239023 seconds.
Oli    0.010672 seconds.

Run Code Online (Sandbox Code Playgroud)

现在,虽然完全"向量化"的解决方案显然是最快的,但您可以看到为每个x条目定义要调用的函数是一个巨大的开销.只是明确地写出计算得到了因子5加速.我想这表明MATLABs JIT编译器不支持内联函数.根据gnovice的回答,实际上写一个普通函数而不是一个匿名函数更好.试试吧.

下一步 - 删除(向量化)内循环:

tic
Soln4 = ones(T, N);
for t = 1:T
    Soln4(t, :) = 3*x(t, :).^2 + 2*x(t, :) - 1;
end
toc

Soln4  0.053926 seconds.

Run Code Online (Sandbox Code Playgroud)

另一个因素是5加速:这些陈述中有些东西说你应该避免MATLAB中的循环...或者真的存在吗？那么看看吧

tic
Soln5 = ones(T, N);
for n = 1:N
    Soln5(:, n) = 3*x(:, n).^2 + 2*x(:, n) - 1;
end
toc

Soln5   0.013875 seconds.

Run Code Online (Sandbox Code Playgroud)

更接近'完全'矢量化版本.Matlab按列存储矩阵.您应始终(在可能的情况下)将计算结构化为"逐列"矢量化.

我们现在可以回到Soln3了.循环顺序有"行方式".让我们改变它

tic
Soln6 = ones(T, N);
for n = 1:N
    for t = 1:T
        Soln6(t, n) = 3*x(t, n)^2 + 2*x(t, n) - 1;
    end
end
toc

Soln6  0.201661 seconds.

Run Code Online (Sandbox Code Playgroud)

更好,但仍然非常糟糕.单循环 - 很好.双循环 - 糟糕.我猜MATLAB在改进循环性能方面做了一些不错的工作,但仍然存在循环开销.如果你内心有一些较重的工作,你就不会注意到.但是由于这个计算是有限的内存带宽,你确实看到了循环开销.你会更清楚地看到在那里调用Func1的开销.

那么arrayfun有什么用呢？在那里也没有任何功能,所以很多开销.但为什么比双嵌套循环更糟糕呢？实际上,使用cellfun/arrayfun的主题已经被多次广泛讨论过(例如,这里,这里,这里和这里).这些函数速度很慢,你不能将它们用于这种细粒度的计算.您可以使用它们来实现代码简洁以及单元格和数组之间的精细转换.但功能需要比你写的更重:

tic
Soln7 = arrayfun(@(a)(3*x(:,a).^2 + 2*x(:,a) - 1), 1:N, 'UniformOutput', false);
toc

Soln7  0.016786 seconds.

Run Code Online (Sandbox Code Playgroud)

请注意,Soln7现在是一个单元格..有时这很有用.代码性能现在非常好,如果您需要单元格作为输出,则在使用完全矢量化解决方案后无需转换矩阵.

那么为什么arrayfun比简单的循环结构慢呢？不幸的是,我们不可能肯定地说,因为没有可用的源代码.你只能猜测,因为arrayfun是一个通用函数,它处理各种不同的数据结构和参数,在简单的情况下它不一定非常快,你可以直接表示为循环嵌套.我们无法知道的开销来自哪里.更好的实施可以避免开销吗？也许不吧.但遗憾的是,我们唯一能做的就是研究性能,以确定适用的情况,以及不适用的情况.

更新由于此测试的执行时间很短,为了获得可靠的结果,我现在添加了一个围绕测试的循环:

for i=1:1000
   % compute
end

Run Code Online (Sandbox Code Playgroud)

有时候给出如下:

Soln5   8.192912 seconds.
Soln7  13.419675 seconds.
Oli     8.089113 seconds.

Run Code Online (Sandbox Code Playgroud)

你看到arrayfun仍然很糟糕,但至少比矢量化解决方案差三个数量级.另一方面,具有逐列计算的单个循环与完全矢量化版本一样快......这都是在单个CPU上完成的.如果切换到2个核心,Soln5和Soln7的结果不会改变 - 在Soln5中,我必须使用parfor来使其并行化.忘掉加速... Soln7并不是并行运行的,因为arrayfun并不是并行运行的.另一方面,Olis矢量化版本:

Oli  5.508085 seconds.

Run Code Online (Sandbox Code Playgroud)

很棒的答案!而matlab中心的链接都提供了非常有趣的读取.非常感谢. (9认同)
只是一个小评论; 回到MATLAB 6.5中,`cellfun`被实现为MEX文件(旁边有C源代码).实际上非常简单.当然它只支持应用6个硬编码函数中的一个(你不能传递函数句柄,只有一个函数名称的字符串) (3认同)

归档时间：	13 年，4 月前
查看次数：	21021 次
最近记录：	10 年，8 月前