标签: hyperthreading

我们得到了一个12核的MacPro来进行蒙特卡罗计算.它的Intel Xeon处理器启用了超线程(HT),因此实际上应该有24个进程并行运行以充分利用它们.但是,我们的计算效率比12x100%高出24x50%更高效,因此我们尝试Processor在系统首选项中通过窗格关闭超线程以获得更高的性能.人们也可以关闭HT

hwprefs -v cpu_ht=false

Run Code Online (Sandbox Code Playgroud)

然后我们进行了一些测试,这是我们得到的:

12个并行任务同时运行w /或没有HT让我们失望.
如果HT关闭,24个并行任务松散20%(不是我们想象的-50%)
当HT打开时,从24个任务切换到12个任务会使效率降低20%(同样令人惊讶)
当HT关闭时,从24切换到12不会改变任何东西.

似乎超线程只是降低了我们计算的性能,并且没有办法避免它.我们用于计算的程序是用Fortran编写的,并使用gfortran.有没有办法让这个硬件更高效？

更新:我们的蒙特卡罗计算(MCC)通常是分步进行的,以避免数据丢失和由于其他原因(并不总是可以避免这些步骤).在我们的例子中,每一步都包含许多具有可变持续时间的模拟.由于每个步骤在多个并行任务之间分割,因此它们也具有可变持续时间.基本上,所有更快的任务都必须等到最慢完成.这一事实迫使我们采取更大的步骤,由于平均而导致时间偏差减少,因此处理器不会浪费时间等待.这是我们拥有12*2.66 GHz而不是24*1.33 GHz的动机.如果可以关闭HT,那么通过从24个任务w/HT切换到12个没有HT的任务,我们可以获得大约+ 10%的性能.但是,测试表明我们松了20%.

对于测试,我使用了相当大的步骤,但通常步骤较短,因此效率变得更高.

还有一个原因 - 我们的一些计算需要3-5 GB的内存,因此您可能会看到我们有12个快速任务的经济性.我们正在努力实现共享内存,但它将成为一个冗长的术语项目.因此,我们需要了解如何尽可能快地制作现有的硬件/软件.

macos fortran intel gfortran hyperthreading

And*_*kau

2010 10-04

6
推荐指数

1
解决办法

6307
查看次数

OpenMP特定线程数急剧减速

我运行了一个OpenMP程序来执行Jacobi方法,它运行得非常好,2个线程执行略超过2x 1线程,4个线程比1个线程快2倍.我觉得一切都很完美......直到我准确地达到了20,22和24个线程.我一直把它分解,直到我有这个简单的程序

#include <stdio.h>
#include <omp.h>

int main(int argc, char *argv[]) {
    int i, n, maxiter, threads, nsquared, execs = 0;
    double begin, end;

    if (argc != 4) {
        printf("4 args\n");
        return 1;
    }

    n = atoi(argv[1]);
    threads = atoi(argv[2]);
    maxiter = atoi(argv[3]);
    omp_set_num_threads(threads);
    nsquared = n * n;

    begin = omp_get_wtime();
    while (execs < maxiter) {

#pragma omp parallel for
        for (i = 0; i < nsquared; i++) {
            //do nothing
        }
        execs++;
    }
    end = omp_get_wtime();

    printf("%f seconds\n", …

Run Code Online (Sandbox Code Playgroud)

c multithreading overhead openmp hyperthreading

Rya*_*ter

lucky-day

6
推荐指数

1
解决办法

421
查看次数

用于超线程的最佳gcc优化开关

背景

我有一个EP(Embarassingly Parallell)C应用程序在我的笔记本电脑上运行四个线程,其中包含运行在2.67GHz的intel i5 M 480.这个CPU有两个超线程内核.

四个线程在不同的数据子集上执行相同的代码.代码和数据在几个缓存行中都没有问题(完全适合L1,有余地).代码不包含任何分区,基本上是CPU绑定的,使用所有可用的寄存器并执行一些内存访问(在L1之外)以在序列完成时写入结果.

编译器是mingw64 4.8.1,即最新版本.最佳基本优化级别似乎是-O1,这导致四个线程比两个完成得更快.-O2和更高的运行速度更慢(两个线程比四个完成得更快但比-O1慢)和-Os一样.每个线程平均每秒执行337万个序列,每个序列大约有780个时钟周期.平均每个序列执行25.5个子操作或每30.6个循环一个.

因此,两个超线程在30.6个周期中并行执行,一个线程将按顺序执行35-40或17.5-20个周期.

我在哪里

我认为我需要的是生成的代码,这些代码不是那么密集/高效,以至于两个超线程不断地碰撞本地CPU的资源.

这些开关工作得相当好(当按模块编译时)

-O1 -m64 -mthreads -g -Wall -c -fschedule-insns

Run Code Online (Sandbox Code Playgroud)

当编译一个#include所有其他模块的模块时也是如此

-O1 -m64 -mthreads -fschedule-insns -march=native -g -Wall -c -fwhole-program

Run Code Online (Sandbox Code Playgroud)

两者之间没有明显的性能差异.

题

有没有人尝试过这个并取得了不错的成绩？

c performance gcc x86-64 hyperthreading

Olo*_*ell

2014 04-09

6
推荐指数

1
解决办法

1682
查看次数

超线程如何影响并行化？

我在OpenMPHyperThreaded CPU上使用代码.

如果其他条件相同,那么非HyperThreaded CPU的性能会如何变化？

我注意到100%的处理器利用率,无论我运行多少线程,但改变线程数确实提高了性能.怎么会这样？

非INTEL多线程CPU的故事是否相同？

c++ parallel-processing multithreading openmp hyperthreading

ror*_*oro

2016 02-13

6
推荐指数

1
解决办法

517
查看次数

何时使用 MPI、OpenMP 和 PBS Pro 进行超线程？

在运行 Linux 的共享内存系统上，假设它有 4 个 Intel Xeon-E5 CPU，每个 CPU 有 10 个内核。安装了 PBS Pro。例如qsub -l select=1:ncpu=30，如果用户想要在 30 个内核上运行，他们通常会运行软件程序。或者会setenv OMP_NUM_THREADS 30为其他软件做。

我的问题主要与基于 MPI 的商业软件包有关。暂时忽略 PBS 和 qsub，运行这些程序所做的只是在启动后从下拉菜单中选择要运行的内核数，或者在启动时从提示中./cfd.exe -np 30选择使用 30 个内核。

系统有 4 个物理插槽 = 4 个 CPU；每个 CPU 有 10 个内核 = 总共 40 个物理内核；每个内核都有超线程，因此cat /proc/cpuinfo将返回 80 个CPU或编号从 0 到 79 的内核。

Q1：我对超线程何时以及如何发生感到困惑，如果它在幕后自动发生，或者我是否必须以某种方式手动调用它来发生。

对于具有许多内核的系统，但为了简单起见，我将继续使用上述数字，现在当使用 PBS Pro 和 qsub 并且用户是否qsub -l select=1:ncpu=20分配了 10 个物理内核，例如 10..19，并且还分配了 10 …

parallel-processing mpi hyperthreading pbs

ron*_*ron

2016 03-08

6
推荐指数

1
解决办法

3015
查看次数