标签: cpu-cache

这是一个有趣的困境.假设线程A正在加载包含x和y的缓存行.线程B使用NT存储写入x.线程A写入y.这里有数据竞争,如果B的存储到x可以在A的负载发生时传输到内存.如果A看到x的旧值,但是X的写入已经发生,那么稍后写入y并最终写回高速缓存行将破坏不相关的值x.我假设处理器以某种方式防止这种情况发生？我不知道如果有可能的行为,任何人都可以使用NT商店构建一个可靠的系统.

c++ x86 sse cpu-cache

Elo*_*off

2018 07-15

4
推荐指数

2
解决办法

473
查看次数

根据Intel的说法，我的缓存应该是12路的，但应该是24路的。

根据“英特尔64和IA-32架构优化参考手册”，2012年4月，第2-23页

LLC数据阵列中保留的数据的物理地址通过散列函数分布在缓存片之间，从而使地址均匀分布。高速缓存块中的数据阵列可以具有对应于0.5M / 1M / 1.5M / 2M块大小的4/8/12/16方式。但是，由于从软件的角度来看，缓存块之间的地址分配，因此它不会显示为普通的N路缓存。

我的计算机是一个2核Sandy Bridge，具有3 MB，12路组关联LLC缓存。但是，这似乎与英特尔的文档不一致。根据数据，看来我应该有24路。我可以想象内核/缓存切片的数量正在发生变化，但是我还不太清楚。如果我有2个内核，因此每个切片有2个1.5 MB的高速缓存片，那么根据Intel的说明，每个高速缓存片将有12种方式，这似乎与我的CPU规格不一致。有人可以向我澄清吗？

如果我想逐出整个缓存行，是否需要以128 KB或256 KB的步幅访问缓存？实际上，这就是我要实现的目标。

任何建议的读物都非常欢迎。

performance intel cpu-architecture micro-optimization cpu-cache

ale*_*791

2017 12-26

4
推荐指数

1
解决办法

553
查看次数

访问内存时，是否会在缓存命中情况下设置页表访问/脏位？

据我所知，CPU的一次内存访问涉及到CPU缓存和MMU。CPU 将尝试在缓存中找到它的目标，如果发生缓存未命中，CPU 将转向 MMU。在 MMU 访问期间，对应页表项的访问/脏位将由硬件设置。

然而，据我所知，除非出现缓存未命中，否则大多数 CPU 设计都不会触发 MMU，这里我的问题是，是否仍会在缓存命中时设置页表条目的访问/脏位？还是跟架构有关？

cpu-architecture cpu-cache mmu page-tables

黄海鑫*_*黄海鑫

2017 04-07

4
推荐指数

2
解决办法

2748
查看次数

缓冲缓存更改会阻止Meltdown吗？

如果新的CPU有一个缓存缓冲区,如果提交的指令只提交给实际的CPU缓存,那么类似于Meltdown的攻击仍然可能吗？

建议是让推测性执行能够从内存加载,但在实际提交之前不要写入CPU缓存.

cpu x86 caching cpu-architecture cpu-cache

Ber*_*ach

2018 01-11

4
推荐指数

1
解决办法

352
查看次数

Linux中堆栈内存在物理上是连续的吗？

据我所知，堆栈内存在虚拟内存地址中是连续的，但是堆栈内存在物理上也是连续的？这与堆栈大小限制有关吗？

编辑：

我曾经认为堆栈内存不必在物理上是连续的，但是为什么我们认为堆栈内存总是比堆内存快？如果它在物理上不是连续的，那么堆栈如何利用缓存的更多优势？还有另一件事总是让我感到困惑，cpu在数据段中执行指令，该指令不在虚拟内存中的堆栈段附近，我认为操作系统不会使堆栈段和数据段在物理上彼此靠近，因此这可能会损害缓存效果，您认为呢？

再次编辑： 也许我应该举一个例子来更好地表达自己，如果我们想对大量数字进行排序，使用数组存储数字要比使用列表更好，因为每个列表节点都可以由构造malloc，因此没有充分利用缓存，这就是为什么我说堆栈内存比堆内存快。

linux heap-memory virtual-memory stack-size cpu-cache

con*_*ong

2018 04-01

4
推荐指数

1
解决办法

357
查看次数

为什么在全关联 TLB 中 LRU 实现成本高昂？

我有一本书的声明：

在全关联 TLB 中实现 LRU 非常昂贵，所以一般的方法是使用随机替换。

我不明白为什么在完整的关联缓存下它很昂贵。这不就是增加了一个额外的参考位......？

cpu-architecture tlb cpu-cache

Bin*_*eee

2018 12-15

4
推荐指数

1
解决办法

607
查看次数

无法在Rust中重现虚假缓存行共享问题

我正在尝试重现处理器缓存效果库的示例6 .

本文以此函数(在C#中)为例来说明如何测试错误共享:

private static int[] s_counter = new int[1024];
private void UpdateCounter(int position)
{
    for (int j = 0; j < 100000000; j++)
    {
        s_counter[position] = s_counter[position] + 3;
    }
}

Run Code Online (Sandbox Code Playgroud)

如果我们创建传递给这个函数0,1,2,3参数的线程,它将花费很长时间来完成(作者得到4.3秒).如果我们通过,例如,16,32,48,64,我们将获得更好的结果(0.28秒).

我在Rust中提出了以下功能:

pub fn cache_line_sharing(arr: [i32; 128], pos: usize) -> (i32, i32) {
    let arr = Arc::new(arr);
    let handles: Vec<_> = (0..4).map(|thread_number| {
        let arr = arr.clone();
        let pos = thread_number * pos;
        thread::spawn(move || unsafe {
            let p = (arr.as_ptr() as *mut i32).offset(pos as isize); …

Run Code Online (Sandbox Code Playgroud)

benchmarking rust cpu-cache false-sharing

mvl*_*bat

2019 01-14

4
推荐指数

1
解决办法

130
查看次数