标签: word-count

没有找到org.apache.hadoop.classification.InterfaceAudience的Cloudera Hadoop类文件

这是我在尝试编译此WordCount.java文件时遇到的错误.

$javac -classpath /usr/lib/hadoop/hadoop-common-2.0.0-cdh4.0.1.jar:/usr/lib/hadoop/client/hadoop-mapreduce-client-core-2.0.0-cdh4.0.1.jar -d ~/wordcount /usr/lib/hadoop/wordcount_classes/WordCount.java
/usr/lib/hadoop/hadoop-common-2.0.0-cdh4.0.1.jar(org/apache/hadoop/fs/Path.class): 

warning: Cannot find annotation method 'value()' in type 'LimitedPrivate': class file for org.apache.hadoop.classification.InterfaceAudience not found
1 warning
Run Code Online (Sandbox Code Playgroud)

hadoop compilation javac word-count cloudera

5
推荐指数
1
解决办法
8125
查看次数

一个打开文本文件的程序,计算单词的数量,并按照它们在文件中出现的次数报告排序的前N个单词?

大家好,我是编程的初学者,我最近得到了创建这个程序的任务,我发现很难.我以前设计过一个程序来计算用户输入的句子中的单词数,是否可以修改这个程序来实现我想要的?

import string
def main():
  print "This program calculates the number of words in a sentence"
  print
  p = raw_input("Enter a sentence: ")
  words = string.split(p)
  wordCount = len(words)
  print "The total word count is:", wordCount
main()
Run Code Online (Sandbox Code Playgroud)

python file word-count

5
推荐指数
1
解决办法
3万
查看次数

SQL Server 2008中列中出现的所有单词的字数

我有一个叫做'ticket_diary_comment'列的表叫做'comment_text'.此列填充了文本数据.我想得到整个专栏中出现的所有单词的频率.例如:

Comment_Text
I am a good guy
I am a bad guy
I am not a guy
Run Code Online (Sandbox Code Playgroud)

我想要的是:

Word    Frequency
I       3
good    1
bad     1
not     1
guy     3
Run Code Online (Sandbox Code Playgroud)

请注意,我还删除了输出中的停用词.我知道计算一个特定单词的频率并不困难,但我正在寻找能够计算一列中出现停用词的所有单词的东西.

我很感激在这个问题上提供任何帮助.我还想提一下,我必须在大数据集(大约1 TB)上应用此查询,因此性能是一个问题.

sql sql-server word-count word-frequency

5
推荐指数
1
解决办法
1万
查看次数

在vim中获取文档的实时字数

我希望vim在状态栏中显示总文档字数(显示当前行和字符编号).我在SO上遇到过类似的问题,并尝试了这里这里提到的所有建议- 但是我们的状态栏中没有任何一个有任何影响.

为了明确地命名一些,我尝试在我的~/.vimrc(以及随后重新启动的vim)中粘贴以下任何内容:

function! CountNonEmpty()
    let l = 1
    let char_count = 0
    while l <= line("$")
        if len(substitute(getline(l), '\s', '', 'g')) > 3   
            let char_count += 1 
        endif
        let l += 1
    endwhile
    return char_count
endfunction

function WordCount()
  let s:old_status = v:statusmsg
  exe "silent normal g\<c-g>"
  let s:word_count = str2nr(split(v:statusmsg)[11])
  let v:statusmsg = s:old_status
  return s:word_count
endfunction  

" If buffer modified, update any 'Last modified: ' in the first 20 lines.
" 'Last …
Run Code Online (Sandbox Code Playgroud)

vim word-count

5
推荐指数
1
解决办法
359
查看次数

使用RegularExpressionValidator来限制字数?

我想使用ASP.NET RegularExpressionValidator来限制文本框中的单词数.(RegularExpressionValidator是我最喜欢的解决方案,因为它将同时进行客户端和服务器端检查).

那么正确的正则表达式放在RegularExpressionValidator中,它会计算单词并强制执行单词限制?可以说,150字.

(注意:我看到这个问题是类似的,但给出的答案似乎也依赖于像Split()这样的代码,所以我认为它们中的任何一个都不能插入RegularExpressionValidator,这就是为什么我要再问一次)

regex asp.net validation word-count

4
推荐指数
1
解决办法
4849
查看次数

netbeans 7.x中的源代码字和行计数?

我是计算机科学专业的学生,​​正在通过netbeans 7.0.1在大学提交java项目,今天我的教师问我你的项目完成了多少,我自信地回答说,是的先生已经完成了大约50%,他说我编码了多少行,我只是说"嗯,不确切地知道爵士",他回答说,"你真的在工作,或者只是从某个地方购买它!",我的脑子一片空白!:D
我用Google搜索并发现了一个针对netbeans 的WordCount插件,但它在NetBeans 7中不起作用,或者我可能不知道它是如何工作的......
任何可用于NetBeans 7.x的WordCount的替代品?
或者其他任何方式,除了在整个应用程序中手动计算线路?

java netbeans word-count

4
推荐指数
2
解决办法
6903
查看次数

计算python中的唯一单词

直接,我的代码到目前为止是这样的:

from glob import glob
pattern = "D:\\report\\shakeall\\*.txt"
filelist = glob(pattern)
def countwords(fp):
    with open(fp) as fh:
        return len(fh.read().split())
print "There are" ,sum(map(countwords, filelist)), "words in the files. " "From directory",pattern
Run Code Online (Sandbox Code Playgroud)

我想添加一个代码来计算模式中的唯一单词(此路径中有42个txt文件),但我不知道如何.有谁能够帮我?

python word-count

4
推荐指数
1
解决办法
1万
查看次数

如何在Cloudera 4上编译WordCount.java?

我正在尝试在Cloudera 4的Linux(CentOS)安装上编译一个简单的WordCount.java map-reduce示例.当我引用任何hadoop类时,我一直在遇到编译器错误,但我无法弄清楚哪个罐子是/ usr/lib/hadoop下的数百个我需要添加到我的类路径来编译.任何帮助将不胜感激!我最喜欢的是一个用于字数统计的java文件(以防万一我找到的那个由于某种原因是坏的)以及编译和运行它的相关命令.

我试图使用javac而不是Eclipse来做到这一点.我的主要问题是Cloudera 4安装的Hadoop库究竟是什么,我需要包含这些库以便编译经典的WordCount示例.基本上,我需要将Java MapReduce API类(Mapper,Reducer等)放在我的类路径中.

java hadoop javac word-count cloudera

4
推荐指数
1
解决办法
7908
查看次数

以最快的方式计算python中的重复单词

我试图在23万字的列表上计算重复的单词.我使用python字典这样做.代码如下:

for words in word_list:
    if words in word_dict.keys():
       word_dict[words] += 1
    else:
       word_dict[words] = 1
Run Code Online (Sandbox Code Playgroud)

上面的代码用了3分钟!我运行相同的代码超过150万字,它运行超过25分钟,我失去了耐心并终止.后来我发现,我可以使用从下面的代码在这里(如下所示).结果是如此令人惊讶,它在几秒钟内完成!所以我的问题是什么是更快的方式来做这个操作?我想字典创建过程必须花费O(N)时间.Counter方法如何能够在几秒钟内完成此过程,并创建一个精确的单词词典作为键和频率的值?

from collections import Counter
word_dict = Counter(word_list)
Run Code Online (Sandbox Code Playgroud)

python performance dictionary hashtable word-count

4
推荐指数
2
解决办法
1万
查看次数

获取tinymce中的单词数

我在 tinymce 之外有一个字数统计 div,它显示字数但没有使用 wordCount 插件,而是使用正则表达式来计算字数。

但是当我添加项目符号或对已经输入的文本应用粗体时,这个计数没有显示正确的值[它显示计数为 3,而我在使用项目符号时只输入了一个单词,并在突出显示的同时将计数增加 2输入文本]

当使用粗体或斜体、下划线或项目符号或使用 wordCount 插件在 stauts 栏外使用它的输出时,任何人都可以建议在正则表达式中做什么以获得正确的计数[在这种情况下在我的字数 div]

这是代码:

tinymceConfig = {
mode:"exact",
elements:"essay",
menubar: false,
statusbar: false,
plugins: "autoresize",
content_css : '../../theme/css/Language/editor.css',
toolbar : "bold italic underline bullist",
resize:"height",
autoresize_max_height: 325,
setup : function(editor) {
    if ($('#essay').prop('readonly')) {
        editor.settings.readonly = true;
    }

    editor.on('keydown', function (evt) {
       var wordCount = 0;
       var valid_keys = [8, 46];
       text = editor.getContent().replace(/(< ([^>]+)<)/g, '').replace(/\s+/g, ' ');
       text = text.replace(/^\s\s*/, '').replace(/\s\s*$/, '');
       wordCount = text.split(' ').length-1;

       if(wordCount …
Run Code Online (Sandbox Code Playgroud)

javascript regex tinymce word-count

4
推荐指数
1
解决办法
4310
查看次数