ConcurrentHashMap中String intern方法的重复数据删除

pac*_*man 6 java string dictionary duplicates concurrenthashmap

我看了一篇来自JavaDays的代码,作者说这种方法有概率非常有效,可以将类似String的字符串存储到String实习方法

 public class CHMDeduplicator<T> {
    private final int prob;
    private final Map<T, T> map;

    public CHMDeduplicator(double prob) {
        this.prob = (int) (Integer.MIN_VALUE + prob * (1L << 32));
        this.map = new ConcurrentHashMap<>();
    }

    public T dedup(T t) {
        if (ThreadLocalRandom.current().nextInt() > prob) {
            return t;
        }
        T exist = map.putIfAbsent(t, t);
        return (exist == null) ? t : exist;
    }
}
Run Code Online (Sandbox Code Playgroud)

请解释一下,这一行中概率的影响是什么:

if (ThreadLocalRandom.current().nextInt() > prob) return t;
Run Code Online (Sandbox Code Playgroud)

这是Java Days的原始演示文稿https://shipilev.net/talks/jpoint-April2015-string-catechism.pdf(56th slide)

Ale*_*lev 8

如果你看一下未来具有与不同的概率数据的表格幻灯片,或谈话,你会看到/听到的理由:概率deduplicators平衡花了重复数据删除的字符串的时间,节省内存从重复数据删除的到来.这允许微调处理字符串所花费的时间,甚至在代码周围撒上低概率重复数据删除器,从而摊销重复数据删除成本.

(来源:这些是我的幻灯片)