小编Bee*_*ope的帖子

template <typename T1 = DefaultT1, typename T2 = DefaultT2>
class Builder {
  int param1, param2;
  Builder(int param1, int param2) : param1{param1}, param2{param2} {}
public:
  Builder() : Builder(default1, default2) {}

  // methods to change param1 and param2 not shown

  /* return a new Builder with T1 changed to the given T1_NEW */
  template <typename T1_NEW>
  Builder<T1_NEW, T2   > withT1() { return {param1, param2}; }

  template <typename T2_NEW>
  Builder<T1   , T2_NEW> withT2() { return {param1, param2}; …

Run Code Online (Sandbox Code Playgroud)

c++ templates builder c++11

Bee*_*ope

2018 06-05

14
推荐指数

3
解决办法

285
查看次数

在Skylake(SKL),为什么只读工作负载中的L2回写超过L3大小？

请考虑以下简单代码:

#include <stdlib.h>
#include <stdio.h>
#include <string.h>
#include <time.h>

#include <err.h>

int cpu_ms() {
    return (int)(clock() * 1000 / CLOCKS_PER_SEC);
}

int main(int argc, char** argv) {
    if (argc < 2) errx(EXIT_FAILURE, "provide the array size in KB on the command line");

    size_t size = atol(argv[1]) * 1024;
    unsigned char *p = malloc(size);
    if (!p) errx(EXIT_FAILURE, "malloc of %zu bytes failed", size);

    int fill = argv[2] ? argv[2][0] : 'x'; 
    memset(p, fill, size);

    int startms = cpu_ms();
    printf("allocated %zu bytes …

Run Code Online (Sandbox Code Playgroud)

performance x86 cpu-cache perf intel-pmu

Bee*_*ope

2018 10-07

14
推荐指数

0
解决办法

470
查看次数

我想分配一个连续的D1和D2对象数组,并将它们视为B对象,包括调用getVirtual()哪些将根据对象类型委托给适当的方法.从概念上讲,这似乎是可能的:每个对象通常通过嵌入的vtable指针知道它的类型,因此您可以想象,将n个对象存储在数组中,并使用放置和初始化对象,并将指针转换为.不过,我很确定演员不合法.n * max(sizeof(D1), sizeof(D2)) unsigned charnewdeleteunsigned charB*

人们还可以想象创建一个联盟,如:

union Both { …

Run Code Online (Sandbox Code Playgroud)

c++ polymorphism virtual-functions

Bee*_*ope

2017 10-18

13
推荐指数

1
解决办法

793
查看次数

有没有希望在std :: variant上有效地调用公共基类方法？

的方式std::variant分派给不同的访问者方法时std::visit被称为是非常合理的,当变异的替代品是完全不同的类型.本质上,特定vtable于访问者的特定是在编译时构建的,并且在一些错误检查^1之后,通过基于当前索引表来查看适当的访问者函数,该当前index()解析为大多数平台上的间接跳转.

但是,如果备选方案共享一个公共基类,则调用(非虚拟)成员函数或使用访问者访问基类上的状态在概念上要简单得多:您总是调用相同的方法并且通常使用相同的指针²来基类.

尽管如此,实施结果同样缓慢.例如:

#include <variant>

struct Base {
  int m_base;
  int getBaseMember() { return m_base; }
};

struct Foo : public Base {
  int m_foo;
};

struct Bar : public Base {
  int m_bar;
};

using Foobar = std::variant<Foo,Bar>;

int getBaseMemVariant(Foobar& v) {
  return std::visit([](auto&& e){ return e.getBaseMember(); }, v);
}

Run Code Online (Sandbox Code Playgroud)

为最新版本的在x86生成的代码gcc和clang类似³(示出铛):

getBaseMemVariant(std::__1::variant<Foo, Bar>&): # @getBaseMemVariant(std::__1::variant<Foo, Bar>&)
        sub …

Run Code Online (Sandbox Code Playgroud)

c++ performance x86 variant c++17

Bee*_*ope

2017 11-21

13
推荐指数

1
解决办法

974
查看次数

混叠漏洞是否适用于签名字符？

在C ++中，存在一个别名漏洞，该漏洞允许通过某些字符类型的指针来读取或写入任何对象的对象表示。

这仅适用于char和unsigned char还是适用于signed char？

c++ signed char strict-aliasing language-lawyer

Bee*_*ope

2019 08-28

13
推荐指数

1
解决办法

637
查看次数

英特尔性能监视器计数器可用于测量内存带宽吗？

英特尔PMU可用于测量每核读/写内存带宽使用情况吗？这里"存储器"意味着DRAM(即,不在任何高速缓存级别中命中).

performance x86 intel-pmu

Bee*_*ope

lucky-day

12
推荐指数

3
解决办法

823
查看次数

我可以在编译时检测到编译时常量的"函数参数"

我可以在编译时检测"函数参数" ¹是否是编译时常量？

例如,一个函数print(int i)可以"constant 5"在被调用时打印,print(5)但"non-constant 5"如果被调用为print(i)where,i则是一些非常量变量.特别是,在"is constant"分支中,我应该能够将其i视为constexpr,包括将其用于模板参数等.

宏技巧,模板元编程和SFINAE技巧都可以.理想情况下它是可移植的,但是编译器特定的解决方案总比没有好.

如果存在"错误否定"则可以 - 即,如果常量值有时被检测为非常数(例如,禁用某些优化时).

如果解决方案可以检测到常量值何时间接传递给函数(例如,当一个常量值传递给调用的中间函数print并且随后内联将常量暴露给print)时,可以获得奖励积分.最后一种行为显然取决于优化.

如果它自然延伸到多个参数,则可获得双倍奖励

如果一个人可以使用和不带constexpr参数重载函数的版本,这可能是直截了当的,但你不能.

¹我在这里引用"函数参数",因为解决方案并不严格要求在函数内(或在具有特殊参数的调用者/被调用者边界)检测此状态 - 它只需要像函数一样出现给调用者但是可以使用宏或其他技巧,如静态对象operator()等.

c++ optimization constexpr c++11

Bee*_*ope

2017 12-07

12
推荐指数

1
解决办法

885
查看次数

可以说服 clang 优化这个几乎叶函数吗

考虑以下几乎叶函数：

int almost_leaf(int* x) {
    if (__builtin_expect(*x >= 0, true)) {
        return *x;
    }
    return x_was_negative() + 1;
}

Run Code Online (Sandbox Code Playgroud)

它几乎是叶子，因为它不是严格意义上的叶子函数（它可能调用x_was_negativeis x 为负数，但__builtin_expect提示编译器return *x通常采用分支，这不涉及任何调用。

clang-16 像这样编译它：

almost_leaf(int*):                      # @almost_leaf(int*)
        push    rax
        mov     eax, dword ptr [rdi]
        test    eax, eax
        js      .LBB0_1
        pop     rcx
        ret
.LBB0_1:
        call    x_was_negative()
        inc     eax
        pop     rcx
        ret

Run Code Online (Sandbox Code Playgroud)

快速（预期）路径上的and （直到第一个的部分）在这里push是完全不必要的：堆栈未使用，并且不会进行需要“由于 ABI”而对齐的堆栈的调用。popret

最好将堆栈对齐到x_was_negative()调用的慢速路径上，就像 gcc 那样：

almost_leaf(int*):
        mov     eax, DWORD PTR [rdi] …

Run Code Online (Sandbox Code Playgroud)

c++ optimization performance x86-64 clang

Bee*_*ope

2023 06-17

12
推荐指数

1
解决办法

179
查看次数

标签统计

c++ ×6

performance ×5

x86 ×5

c++11 ×2

intel-pmu ×2

optimization ×2

avx2 ×1

avx512 ×1

builder ×1

c++17 ×1

char ×1

clang ×1

constexpr ×1

cpu-cache ×1

floating-point ×1

fma ×1

intel ×1

language-lawyer ×1

linux ×1

perf ×1

polymorphism ×1

signed ×1

simd ×1

strict-aliasing ×1

templates ×1

variant ×1

virtual-functions ×1

x86-64 ×1

小编Bee_ope的帖子

动态确定恶意AVX-512指令的执行位置

我可以使用AVX FMA单元进行精确的52位整数乘法吗？

在模板构建器模式中分解重复的构造函数调用

在Skylake(SKL),为什么只读工作负载中的L2回写超过L3大小？

连续存储多态类型

有没有希望在std :: variant上有效地调用公共基类方法？

混叠漏洞是否适用于签名字符？

英特尔性能监视器计数器可用于测量内存带宽吗？

我可以在编译时检测到编译时常量的"函数参数"

可以说服 clang 优化这个几乎叶函数吗

标签统计

标签 统计

小编Bee_ope的帖子

标签统计