Java:HashSet与HashMap

Question

Java:HashSet与HashMap

Rav*_*erg 7 java hash memory-management hashmap hashset

我有一个程序处理大量数据集.由于程序一直在寻找容器中的对象,因此最好将对象存储在散列实现的容器中.

第一个想法是使用HashMap,因为获取和删除此容器的方法更适合我需要的用途.

但是,我开始看到HashMap的使用是相当大的内存消耗品,这是一个主要问题,所以我认为切换到HashSet会更好,因为它只使用<E>,而不是<K,V>每个元素,但是当我看到实现我学会了它使用底层的HashMap!这意味着它不会节省任何记忆!

所以这是我的问题:

我所有的假设都是真的吗？
HashMap内存是否浪费？更具体地说,每个条目的开销是多少？
HashSet和HashMap一样浪费吗？
是否有任何其他基于Hash的容器将显着减少内存耗材？

更新

根据评论的要求,我将对我的程序进行一些扩展,hashMap意味着保存一对其他对象,以及一些数值 - 从它们计算的浮点数.一路上,它提取了一些并进入新的对.给定一对,它需要确保它不会保持这对或删除它.可以使用float值或hashCodepair对象完成映射.

另外,当我说"庞大的数据集"时,我说的是~4*10 ^ 9个对象

Answer 1

Nul*_*ull 13

关于java中的集合性能,本网站上有非常有用的提示.

HashSet建立在a之上HashMap< T, Object >,其中value是单个"当前"对象.这意味着the memory consumption of aHashSet is identical to HashMap:为了存储SIZE值,您需要32*SIZE + 4*CAPACITY字节(加上值的大小).它绝对不是一个对内存友好的集合.

THashSet可能是最简单的替换集合HashSet- 它实现了Set和Iterable,这意味着你应该在集合的初始化中更新单个字母.

THashSet使用单个对象数组作为其值,因此它使用4*CAPACITY字节进行存储.如您所见,与JDK HashSet相比,在相同的加载因子的情况下,您将节省 32*SIZE字节,这是一个巨大的改进.

另外,我从这里拍摄的下图可以帮助我们记住选择合适的收藏品

在此输入图像描述

Answer 2

gkn*_*ker 5

我所有的假设都是真的吗？

你是正确的,HashSet使用HashMap,所以你不会通过使用HashSet来保存任何内存.

如果你正在创建具有大量元素的地图,你应该根据你的知识构造你的HashMaps,initialCapacity以防止重复的重复(因此内存颠簸).

HashMap内存是否浪费？更具体地说,每个条目的开销是多少？

不,这不浪费.开销是底层数组(修改的大小loadFactor),以及Entry每个键值对的对象.除了存储键和值之外,入口对象还存储指向槽中下一个条目的指针(如果两个或多个条目占据底层阵列中的相同槽).默认的loadFactor 0.75使基础数组大小保持在条目数的133%.

非常具体地说,每个条目的内存开销是:

入口对象对密钥的引用,
入口对象对值的引用,
入口对象对下一个条目的引用,
和底层数组对条目的引用(除以加载因子).

对于基于散列的集合来说,要获得更多的修剪是非常困难的.

HashSet和HashMap一样浪费吗？

通过使用HashSet而不是,你将获得没有内存效率HashMap.

是否有任何其他基于Hash的容器将显着减少内存耗材？

如果你的密钥是原始的(例如ints),那里有自定义Map和Set实现(在第三方库中),它们使用更多内存有效的数据结构.

归档时间：	10 年，9 月前
查看次数：	3747 次
最近记录：	10 年，9 月前