计算文件中重复的单词

JJu*_*ior 3 java string hashmap data-structures

目标:查找文件中所有单词的计数.文件包含1000多个单词

我的方法:使用a HashMap<String,Integer>()来存储和计算每个单词出现在文件中的次数.

问题:一个HashMap()是最好的方法还是更好的方法是使用二叉树来确保更快的查找,因为文件中有大量的单词?

或者有更好的方法吗?

HashMap会导致大量内存开销,这是不希望的.

Mit*_*eat 5

1000 - 10000字是非常小的.

Hashmap会很好.


Mic*_*l D 5

所以你在寻找不同的词汇?

我能想到的最有效的结构是Trie

这是一个开源实现:Google Code patricia-trie

虽然我倾向于同意Mitch Wheat - 听起来像HashMap应该可以正常工作(最好避免过早优化......所以你应该使用HashMap,直到你发现它是一个瓶颈)