计算文件中重复的单词

Question

目标:查找文件中所有单词的计数.文件包含1000多个单词

我的方法:使用a HashMap<String,Integer>()来存储和计算每个单词出现在文件中的次数.

问题:一个HashMap()是最好的方法还是更好的方法是使用二叉树来确保更快的查找,因为文件中有大量的单词？

或者有更好的方法吗？

HashMap会导致大量内存开销,这是不希望的.

Answer 1

1000 - 10000字是非常小的.

Hashmap会很好.

Answer 2

所以你在寻找不同的词汇？

我能想到的最有效的结构是Trie

虽然我倾向于同意Mitch Wheat - 听起来像HashMap应该可以正常工作(最好避免过早优化......所以你应该使用HashMap,直到你发现它是一个瓶颈)