ifort 和 gfortran 之间令人费解的性能差异

Question

ifort 和 gfortran 之间令人费解的性能差异

最近，我在 Stack Overflow 上阅读了一篇关于寻找完美平方的整数的文章。由于我想玩这个，我写了以下小程序：

PROGRAM PERFECT_SQUARE
IMPLICIT NONE
INTEGER*8 :: N, M, NTOT
LOGICAL :: IS_SQUARE

N=Z'D0B03602181'
WRITE(*,*) IS_SQUARE(N)

NTOT=0
DO N=1,1000000000
  IF (IS_SQUARE(N)) THEN
    NTOT=NTOT+1
  END IF
END DO
WRITE(*,*) NTOT ! should find 31622 squares
END PROGRAM

LOGICAL FUNCTION IS_SQUARE(N)
IMPLICIT NONE
INTEGER*8 :: N, M

! check if negative
IF (N.LT.0) THEN
  IS_SQUARE=.FALSE.
  RETURN
END IF

! check if ending 4 bits belong to (0,1,4,9)
M=IAND(N,15)
IF (.NOT.(M.EQ.0 .OR. M.EQ.1 .OR. M.EQ.4 .OR. M.EQ.9)) THEN
  IS_SQUARE=.FALSE.
  RETURN
END IF

! try to find the nearest integer to sqrt(n)
M=DINT(SQRT(DBLE(N)))
IF (M**2.NE.N) THEN
  IS_SQUARE=.FALSE.
  RETURN
END IF

IS_SQUARE=.TRUE.
RETURN
END FUNCTION

Run Code Online (Sandbox Code Playgroud)

使用编译时gfortran -O2，运行时间为 4.437 秒，使用 -O3 时为 2.657 秒。然后我认为编译ifort -O2可能会更快，因为它可能具有更快的SQRT功能，但结果运行时间现在是 9.026 秒，并且ifort -O3相同。我尝试使用 Valgrind 对其进行分析，Intel 编译的程序确实使用了更多指令。

我的问题是为什么？有没有办法找出差异的确切来源？

编辑：

gfortran 4.6.2 版和 ifort 12.0.2 版
时间是从运行中获得的time ./a.out，是真实/用户时间（系统总是几乎为 0）
这是在 Linux x86_64 上，gfortran 和 ifort 都是 64 位版本
ifort 内联所有内容，gfortran 仅在 -O3 处，但后者的汇编代码比 ifort 的汇编代码更简单，后者大量使用 xmm 寄存器
固定的代码行，NTOT=0在循环之前添加，应该解决其他 gfortran 版本的问题

IF删除复杂语句后，gfortran 需要大约 4 倍的时间（10-11 秒）。这是可以预料的，因为该语句大约抛出了大约 75% 的数字，避免SQRT对它们进行处理。另一方面，ifort 只使用稍微多一点的时间。我的猜测是当 ifort 尝试优化IF语句时出现问题。

编辑2：

我尝试使用 ifort 版本 12.1.2.273 它要快得多，所以看起来他们修复了这个问题。

Answer 1

lax*_*xxy 5

您使用的是什么编译器版本？有趣的是，它看起来像是从 11.1 到 12.0 的性能回归——例如，对我来说，11.1（ifort -fast square.f90）需要 3.96 秒，而 12.0（相同选项）需要 13.3 秒。gfortran (4.6.1) (-O3) 仍然更快（3.35s）。我以前见过这种回归，虽然没有那么戏剧化。顺便说一句，用 if 语句替换

is_square = any(m == [0, 1, 4, 9])
if(.not. is_square) return

Run Code Online (Sandbox Code Playgroud)

使其在 ifort 12.0 中运行速度提高两倍，但在 gfortran 和 ifort 11.1 中运行速度较慢。

问题的一部分似乎是 12.0 在尝试矢量化事物时过于激进：添加

!DEC$ NOVECTOR

Run Code Online (Sandbox Code Playgroud)

在 DO 循环之前（不更改代码中的任何其他内容）将运行时间缩短到 4.0 秒。

另外，作为一个附带好处：如果您有一个多核 CPU，请尝试在 ifort 命令行中添加 -parallel :)

归档时间：	13 年，8 月前
查看次数：	4486 次
最近记录：	13 年，7 月前