未矢量化：不适合收集 D.32476_34 = *D.32475_33；

Question

未矢量化：不适合收集 D.32476_34 = *D.32475_33；

我想让我的代码由编译器自动向量化，但我似乎无法做到正确。特别是我从中得到的带有-ftree-vectorizer-verbose=6 选项的消息是125: not vectorized: not suitable for gather D.32476_34 = *D.32475_33;.

现在我的问题是这条消息的全部含义以及这些数字代表什么？

波纹管，我创建了一个产生相同消息的简单测试示例，所以我假设这些问题是相关的。

static void not_suitable_for_gather(unsigned char * __restrict__ pixels, int * __restrict__ indices, int indices_num)
{   
  for (int i = 0; i < indices_num; ++i)
  {
    int idx = indices[i] * 4;

    float r = pixels[idx + 0];
    float g = pixels[idx + 1];
    float b = pixels[idx + 2];
    float a = pixels[idx + 3] / 255.0f;

    pixels[idx + 0] = r;
    pixels[idx + 1] = g;
    pixels[idx + 2] = b;
    pixels[idx + 3] = a * 255.0f;
  }

  return;
}

Run Code Online (Sandbox Code Playgroud)

此外，在创建我的示例时，我遇到了一大堆其他消息，我不太确定它们的含义，或者为什么特定的构造在矢量化时会有问题，所以是否有任何指南、书籍、教程、博客等等那会向我解释这些事情吗？

如果这很重要，我将使用带有 QtCreator 2.7.0 的 MingW 4.7 32 位。

编辑：结论：

根据我在这篇文章中的测试和建议，该消息很可能与通过辅助索引数组间接访问数据有关，这导致了收集/分散寻址方案，目前GCC无法（或不想）对此进行矢量化。不过，我能够生成矢量化代码clang++ 3.2-1。

Answer 1

Oak*_*Oak 2

代码的矢量化版本在概念上类似于（使用 OpenCL 语法）：

for (int i = 0; i < indices_num; ++i)
{
  int idx = indices[i] * 4;
  float4 factor = (1, 1, 1, 255.0f);

  char4 x1 = vload4(idx, pixels); // Line A
  float4 x2 = convert_float4(x1);
  float4 x3 = x2 / factor;
  float4 x4 = x3 * factor;
  char4 x5 = convert_char4(x4);
  vstore4(x5, idx, pixels); // Line B
}

Run Code Online (Sandbox Code Playgroud)

但坚持住；在 A 行中，您尝试从内存加载四个字符（又名 uint8），并将它们存储在 B 行中。这不是 x86 的常见功能；据我所知，支持它的唯一指令集是支持 AVX2 的指令集（Intel Haswell 及更高版本）和 Xeon Phi 指令集。除非您要编译为其中之一，否则这可以解释为什么您的编译器拒绝此矢量化机会。

编译器当然可以单独加载 4 个 uint8，从它们构建一个向量，执行所需的向量运算，然后手动存储 4 个值；但我猜测，与通过矢量化节省的实际工作量相比，如果没有聚集和分散，单独加载和存储值可能被认为过于昂贵。

归档时间：	12 年，6 月前
查看次数：	1207 次
最近记录：	12 年，6 月前