有效地从java中的大型数组中删除重复的字符串？

Question

我正在考虑从(未排序的)字符串数组中删除重复项的最佳方法 - 该数组包含数百万或数千万字符串.数组已经预先填充,因此优化目标只是删除重复而不是防止重复从最初填充!!

我正在考虑进行排序然后二元搜索以获得log(n)搜索而不是n(线性)搜索.这将给我nlogn + n次搜索,这些搜索除了未排序(n ^ 2)之外的搜索效果更好,但这似乎仍然很慢.(还考虑了散列但不确定吞吐量)

请帮忙!寻找一种解决速度和内存的高效解决方案,因为在不使用Collections API的情况下涉及数百万字符串!

Answer 1

直到你的最后一句话,答案对我来说似乎很明显:如果你需要保留顺序,请使用a HashSet<String>或a LinkedHashSet<String>:

HashSet<String> distinctStrings = new HashSet<String>(Arrays.asList(array));

如果不能使用集合API,可以考虑建立自己的哈希集合......但直到你给一个理由,为什么你不希望使用集合API,很难给出更具体的答案,因为这原因也可以排除其他答案.

好问题 - 这是我被问到的一个itview问题.我提出了quiksort +相邻比较,但这对他们来说还不够好.我很确定他们是对的 - 我希望能在这里找到比nlogn + n更好的人吗？ (2认同)

Answer 2

分析

让我们进行一些分析:

在堆排序的情况下,您可以在飞行中远离重复,因此您将在排序后保存最终传递.

结论