相关疑难解决方法(0)

在大数组中有效地找到最低有效设置位？

我有一个巨大的内存块（位向量），在一个内存页中大小为N位，考虑N平均为 5000，即 5k 位来存储一些标志信息。
在某个时间点（超级频繁 - 关键），我需要在整个大位向量中找到第一个位集。现在我每 64 个字都这样做，即在 ) 的帮助下__builtin_ctzll。但是当N增长并且搜索算法无法改进时，可以通过扩展内存访问宽度来扩展此搜索。这是几句话的主要问题

有一条被调用的汇编指令BSF 给出了最高设置位（GCC's __builtin_ctzll()）的位置。因此，在x86-64 arch 中，我可以在 64 位字中廉价地找到最高位。

但是通过内存宽度进行缩放呢？
例如，有没有办法用 128 / 256 / 512 位寄存器有效地做到这一点？
基本上我对一些 C API 函数来实现这个感兴趣，但也想知道这个方法是基于什么的。

UPD：至于 CPU，我对这种优化感兴趣，以支持以下 CPU 阵容：
英特尔至强 E3-12XX、英特尔至强 E5-22XX/26XX/E56XX、英特尔酷睿 i3-5XX/4XXX/8XXX、英特尔酷睿 i5- 7XX、英特尔赛扬 G18XX/G49XX（英特尔凌动 N2600、英特尔赛扬 N2807、Cortex-A53/72 可选）

PS在最终位扫描之前提到的算法中，我需要将k（平均 20-40）个N位向量与 CPU AND相加（AND 结果只是位扫描的准备阶段）。这也适用于内存宽度缩放（即比每 64 位字 AND 更有效）

另请阅读：查找第一组

c assembly bit-manipulation x86-64 avx

red*_*0ct

2021 06-04

13
推荐指数

2
解决办法

465
查看次数

如何有效地找到数组中的第一个非零？

假设我们想快速找到数组中第一个非零元素的索引，效果如下

fn leading_zeros(arr: &[u32]) -> Option<usize> {
    arr.iter().position(|&x| x != 0)
}

Run Code Online (Sandbox Code Playgroud)

但是，这会被编译为逐一检查，rustc如下所示。u128通过使用如下类型检查单词 4 by 4，可以稍微加快速度。这使我的机器的速度提高了大约 3 倍。

fn leading_zeros_wide(arr: &[u32]) -> Option<usize> {
    let (beg, mid, _) = unsafe { arr.align_to::<u128>() };

    beg.iter().position(|&x| x != 0).or_else(|| {
        let left = beg.len() + 4 * mid.iter().position(|&x| x != 0).unwrap_or(mid.len());
        arr[left..].iter().position(|&x| x != 0).map(|p| p + left)
    })
}

Run Code Online (Sandbox Code Playgroud)

有没有办法让它更快？

这是我用来确定 3 倍加速的基准：

#![feature(test)]
extern crate test;

fn v() -> Box<[u32]> {
    std::iter::repeat(0).take(1000).collect()
}

// …

Run Code Online (Sandbox Code Playgroud)

simd rust

MER*_*TON

2022 01-07

9
推荐指数

1
解决办法

1469
查看次数

标签统计

assembly ×1

avx ×1

bit-manipulation ×1

c ×1

rust ×1

simd ×1

x86-64 ×1

在大数组中有效地找到最低有效设置位？

如何有效地找到数组中的第一个非零？

标签 统计

标签统计