两个数组的点积
for(int i=0; i<n; i++) {
sum += x[i]*y[i];
}
Run Code Online (Sandbox Code Playgroud)
不重用数据,因此它应该是一个内存绑定操作.因此,我应该能够从点积测量内存带宽.
使用代码 为什么 - 矢量化 - 循环 - 没有性能改进 我的系统带宽为9.3 GB/s.但是,当我尝试使用点积计算带宽时,我获得单个线程的速率的两倍以及使用多个线程的速率超过三倍(我的系统有四个核心/八个超线程).这对我没有意义,因为内存绑定操作不应该受益于多个线程.以下代码的输出如下:
Xeon E5-1620, GCC 4.9.0, Linux kernel 3.13
dot 1 thread: 1.0 GB, sum 191054.81, time 4.98 s, 21.56 GB/s, 5.39 GFLOPS
dot_avx 1 thread 1.0 GB, sum 191043.33, time 5.16 s, 20.79 GB/s, 5.20 GFLOPS
dot_avx 2 threads: 1.0 GB, sum 191045.34, time 3.44 s, 31.24 GB/s, 7.81 GFLOPS
dot_avx 8 threads: 1.0 GB, sum 191043.34, time 3.26 …Run Code Online (Sandbox Code Playgroud) 我的内存块可能非常大(比L2缓存大),有时我必须将它们设置为全零.memset在串行代码中很好,但是并行代码呢?如果从并发线程调用memset实际上加快了大型数组的速度,有经验吗?或者甚至使用简单的openmp并行for循环?
我一直在测试一个OpenMP并行代码中的代码,memset并行运行会有什么好处吗?我正在观察一些意外的事情.
我的系统是一个单插槽Xeon E5-1620,它是一个Ivy Bridge处理器,有4个物理内核和8个超线程.我使用的是Ubuntu 14.04 LTS,Linux Kernel 3.13,GCC 4.9.0和EGLIBC 2.19.我编译gcc -fopenmp -O3 mem.c
当我在链接中运行代码时,它默认为八个线程并给出
Touch: 11830.448 MB/s
Rewrite: 18133.428 MB/s
Run Code Online (Sandbox Code Playgroud)
但是,当我绑定线程并将线程数设置为这样的物理核心数
export OMP_NUM_THREADS=4
export OMP_PROC_BIND=true
Run Code Online (Sandbox Code Playgroud)
我明白了
Touch: 22167.854 MB/s
Rewrite: 18291.134 MB/s
Run Code Online (Sandbox Code Playgroud)
触控率增加了一倍!绑定后运行几次总是比重写更快.我不明白这一点.绑定线程并将其设置为物理核心数后,为什么触摸比重写更快?为什么触控率翻倍?
这是我使用的代码,没有修改Hristo Iliev的答案.
#include <stdio.h>
#include <string.h>
#include <omp.h>
void zero(char *buf, size_t size)
{
size_t my_start, my_size;
if (omp_in_parallel())
{
int id = omp_get_thread_num();
int num = omp_get_num_threads();
my_start = (id*size)/num;
my_size = ((id+1)*size)/num - my_start;
}
else
{
my_start = 0;
my_size …Run Code Online (Sandbox Code Playgroud) 我正在使用 OpenMP 测试 C 并行程序的加速。使用-O3标志用gcc编译代码,执行时间似乎要小得多。然而,与没有优化标志编译的代码相比,不同线程数(2、4、8、16、24)的加速速度始终较慢。这怎么可能?
以下是我迄今为止发现的更多信息。我正在编写一个基于埃拉托斯特尼筛法查找素数的代码,并尝试使用 OpenMP 通过并行版本对其进行优化。这是代码
#include <stdio.h>
#include <stdlib.h>
#include <omp.h>
#include <math.h>
// ind2num: returns the integer (3<=odd<=numMax)
// represented by index i at prime_numbers (0<=i<=maxInd)
#define ind2num(i) (2*(i)+3)
// num2ind: retorns the index (0<=i<=maxInd) at prime_numbers
// which represents the number (3<=odd<=numMax)
#define num2ind(i) (((i)-3)/2)
// Sieve: find all prime numbers until ind2num(maxInd)
void Sieve(int *prime_numbers, long maxInd) {
long maxSqrt;
long baseInd;
long base;
long i;
// square root of the largest …Run Code Online (Sandbox Code Playgroud)