Vic*_*don 1 c parallel-processing openmp
我有一个必须使用OpenMP库实现的C程序.其结构是:
for (t = 0; t < IT; ++t) {
#pragma omp parallel for private(i, j, k, l) schedule(dynamic)
for (i = 0; i < n; ++i) {
for (j = 0; j < n; ++j) {
for (k = 0; k < n; ++k) {
for (l = 0; l < n; ++l) {
// calculations 0
}
}
// calculations 1
}
}
#pragma omp parallel for private(i, j) schedule(dynamic)
for (i = 0; i < n; ++i) {
for (j = 0; j < n; ++j) {
// calculations 2
}
}
}
Run Code Online (Sandbox Code Playgroud)
该程序对矩阵进行了一些计算.计算2必须在计算0和1完成后完成,因为它在矩阵中进行了一些修改.
问题是加速非常糟糕,即程序不可扩展.给定输入的串行版本运行在79.46s.当运行两个线程时,它在41s完成,几乎完美的加速1.93次,但是当运行3个线程时它完成37.86s(加速只有2.1倍),而4个线程需要34.104s(加速只有2.3倍).
为什么这不可扩展?
PS.我有一个4核的Intel i5 430M.
它不具备可扩展性,因为您拥有英特尔酷睿i5.Intel Core I5有2个核心和4个线程,所以只有2个真核,而不是4个.(这种处理器使用超线程技术)
具有2个内核和2个线程的处理器(例如双核,Core 2 Duo,Core I3)和Core I5(具有2个内核和4个线程,并使用超线程来充当四核处理器)之间的区别是在你的超线程酷睿i5的性能升压CAN是高达30%.但您无法将Hyper-Threaded Core I5与Core I7(具有4个内核和4个线程)进行比较.