计算数组中单词的出现次数

Adw*_*dwo 0 java arrays vector

我一直致力于处理一些字符流,形成单词,创建单词数组,然后创建一个包含每个唯一单词及其出现次数的向量(基本上是单词计数器).

无论如何,我很长一段时间没有使用Java,或者说实话编程很多,我对目前看来并不满意.我所拥有的部分使得矢量看起来很难看,我想知道我是否可以减少它的混乱.

    int counter = 1;
    Vector<Pair<String, Integer>> finalList = new Vector<Pair<String, Integer>>();
    Pair<String, Integer> wordAndCount = new Pair<String, Integer>(wordList.get(1), counter); // wordList contains " " as first word, starting at wordList.get(1) skips it.

    for(int i= 1; i<wordList.size();i++){
        if(wordAndCount.getLeft().equals(wordList.get(i))){
            wordAndCount = new Pair<String, Integer>(wordList.get(i), counter++);
        }
        else if(!wordAndCount.getLeft().equals(wordList.get(i))){
            finalList.add(wordAndCount);
            wordAndCount = new Pair<String, Integer>(wordList.get(i), counter=1);
        }
    }
    finalList.add(wordAndCount); //UGLY!!
Run Code Online (Sandbox Code Playgroud)

作为次要问题,这给了我一个矢量,其中所有单词都按字母顺序排列(如数组中所示).我希望按事件排序,按字母顺序排列.

最好的选择是:

  • 迭代向量,用上面的那个测试每个出现int,Collections.swap()如果它更高,则检查上面的下一个(因为它现在向上移动1),依此类推,直到它不再大于它上面的任何东西.可以跳过任何出现的1.

  • 再次向下迭代向量,针对向量的第一个元素测试每个元素,然后向下迭代,直到出现次数较低并将其插入该元素上方.将再次跳过所有出现的1.

第一种方法在迭代元素方面会做得更多,但第二种方法需要你添加和删除向量的组件(我认为?)所以我不知道哪个更有效,或者是否值得考虑.

vai*_*olo 5

为什么不用a Map来解决你的问题呢?

String[] words // your incoming array of words.
Map<String, Integer> wordMap = new HashMap<String, Integer>();
for(String word : words) {
  if(!wordMap.containsKey(word))
    wordMap.put(word, 1);
  else
    wordMap.put(word, wordMap.get(word) + 1);
}    
Run Code Online (Sandbox Code Playgroud)

可以使用Java的已排序集合进行排序:

SortedMap<Integer, SortedSet<String>> sortedMap = new TreeMap<Integer, SortedSet<String>>();
for(Entry<String, Integer> entry : wordMap.entrySet()) {
  if(!sortedMap.containsKey(entry.getValue()))
    sortedMap.put(entry.getValue(), new TreeSet<String>());

  sortedMap.get(entry.getValue()).add(entry.getKey());
}
Run Code Online (Sandbox Code Playgroud)

现在你应该将排序留给语言的库.多年来,它们已被证明是正确的.

请注意,由于所涉及的所有数据结构,代码可能会占用大量内存,但这就是我们为更高级别的编程付出的代价(并且内存每秒都变得越来越便宜).

我没有运行代码看它是否有效,但它确实编译(直接从eclipse复制)