标签: intel

static int8_t LogicalProcCount(void)
{
    if ( !Hyperthreading )
        return 1;

    uint32_t unused, ebx;
    CPUID(1, unused, ebx, unused, unused);

    return (int8_t) ( (ebx >> 16 ) & 0xFF );
}

Run Code Online (Sandbox Code Playgroud)

c c++ intel cpuid

Pun*_*oyd

lucky-day

2
推荐指数

1
解决办法

1097
查看次数

英特尔x86_64处理器不仅是流水线架构,还是超标量？

流水线操作 - 这两个序列并行执行(同一时钟中相同流水线单元的不同阶段,例如4个阶段的ADD):
- stage1 - > stage2 - > stage3 - > stage4 - >没什么
- 没有 - > stage1 - > stage2 - > stage3 - > stage4
超标量 - 这两个序列并行执行(两个指令可以在同一时钟中启动到不同的流水线单元,例如ADD和MUL):
- ADD(阶段1) - > ADD(阶段2) - > ADD(阶段3)
- MUL(stage1) - > MUL(stage2) - > MUL(stage3)

cpu x86 x86-64 intel cpu-architecture

Ale*_*lex

lucky-day

2
推荐指数

1
解决办法

2948
查看次数

什么是有效地址？

在阅读英特尔64和IA-32架构软件开发人员手册时,LEA指令的操作部分(加载有效地址)使用了一个EffectiveAddress(SRC)在其他任何地方都没有定义的计算.

有效地址的定义是什么,EffectiveAddress(SRC)做什么？

x86 x86-64 intel

Dou*_*son

lucky-day

2
推荐指数

1
解决办法

5968
查看次数

x86-64管道是否像JMP RAX那样间接跳转？

在x86-64中,如果使用以下汇编代码:

MOV RAX, (memory address)
JMP RAX

Run Code Online (Sandbox Code Playgroud)

管道在执行分支之前是否停止(等待MOV完成RAX),还是像条件分支一样刷新管道？

assembly pipeline x86-64 intel nasm

cra*_*dr4

2016 05-22

2
推荐指数

1
解决办法

644
查看次数

perf_event_open - 如何监视多个事件

有没有人知道如何设置perf_event_attr可以触发PMU监控多个(类型)事件的结构perf_event_open()？

比如perf record -e cycles,faults ls,它有两种不同的事件类型(PERF_TYPE_HARDWARE和PERF_TYPE_SOFTWARE),但在perf_event_open的联机帮助页上的示例中,perf_event_attr.type只能分配单个值.

任何建议将不胜感激,谢谢!

20170208更新 感谢@gudok指点我的方向,但结果似乎有些异常.演示程序如下(用于测量整个系统的CPU周期和缓存未命中):

#define _GNU_SOURCE
#include <stdlib.h>
#include <stdio.h>
#include <unistd.h>
#include <sys/syscall.h>
#include <string.h>
#include <sys/ioctl.h>
#include <linux/perf_event.h>
#include <linux/hw_breakpoint.h>
#include <asm/unistd.h>
#include <errno.h>
#include <stdint.h>
#include <inttypes.h>
#include <time.h>

struct read_format {
  uint64_t nr;
  struct {
    uint64_t value;
    uint64_t id;
  } values[];
};

int main(int argc, char* argv[]) {
  struct perf_event_attr pea;
  int fd1, fd2;
  uint64_t id1, id2;
  uint64_t val1, …

Run Code Online (Sandbox Code Playgroud)

linux intel perf

Kan*_*son

2017 02-08

2
推荐指数

1
解决办法

2553
查看次数

AVX mat4 inv实现比SSE慢

我在SSE2和AVX中实现了4x4矩阵逆.两者都比普通实现更快.但是如果启用AVX(-mavx),则SSE2实现比手动AVX实现运行得更快.似乎编译器使我的SSE2实现与AVX更友好:(

在我的AVX实现中,乘法次数减少,添加次数减少......所以我希望AVX可以比SSE更快.也许有些像说明资讯_mm256_permute2f128_ps,_mm256_permutevar_ps/_mm256_permute_ps使得AVX慢？我不是要将SSE/XMM寄存器加载到AVX/YMM寄存器.

如何使我的AVX实现比SSE更快？

我的CPU:Intel(R)Core(TM)i7-3615QM CPU @ 2.30GHz(Ivy Bridge)

Plain with -O3      : 0.045853 secs
SSE2  with -O3      : 0.026021 secs
SSE2  with -O3 -mavx: 0.024336 secs
AVX1  with -O3 -mavx: 0.031798 secs

Updated (See bottom of question) all have -O3 -mavx flags:
AVX1 (reduced div)  : 0.027666 secs
AVX1 (using rcp_ps) : 0.023205 secs
SSE2 (using rcp_ps) : 0.021969 secs

Run Code Online (Sandbox Code Playgroud)

初始矩阵:

Matrix (float4x4):
    |0.0714    -0.6589  0.7488  2.0000|
    |0.9446     0.2857  0.1613  4.0000|
    |-0.3202    0.6958  0.6429  6.0000|
    |0.0000 …

Run Code Online (Sandbox Code Playgroud)

performance sse intel matrix avx

rec*_*ecp

2018 10-30

2
推荐指数

1
解决办法

155
查看次数

将大型char8的c数组转换为short16的最快方法是什么？

我的原始数据是一堆c数组（长度为1000000）（无符号）char（8位）。我想将它们加在一起（矢量加法），遵循以下代码中的规则。结果：（无符号）short（16位）的c数组。

我已经阅读了所有SSE和AVX / AVX2，但有一个类似的调用，即多个2个256位寄存器。前4个32位将相乘，每对32位的结果是一个64位，将适合256个寄存器。（_mm256_mul_epi32，_mm256_mul_epu32）

Firgure

https://www.codeproject.com/Articles/874396/Crunching-Numbers-with-AVX-and-AVX

样例代码：

static inline void adder(uint16_t *canvas, uint8_t *addon, uint64_t count)
{
    for (uint64_t i=0; i<count; i++)
        canvas[i] += static_cast<uint16_t>(addon[i]);
}

Run Code Online (Sandbox Code Playgroud)

谢谢

c c++ intel intrinsics

Ngọ*_*yễn

2019 01-17

2
推荐指数

1
解决办法

204
查看次数