这是我在尝试编译此WordCount.java文件时遇到的错误.
$javac -classpath /usr/lib/hadoop/hadoop-common-2.0.0-cdh4.0.1.jar:/usr/lib/hadoop/client/hadoop-mapreduce-client-core-2.0.0-cdh4.0.1.jar -d ~/wordcount /usr/lib/hadoop/wordcount_classes/WordCount.java
/usr/lib/hadoop/hadoop-common-2.0.0-cdh4.0.1.jar(org/apache/hadoop/fs/Path.class):
warning: Cannot find annotation method 'value()' in type 'LimitedPrivate': class file for org.apache.hadoop.classification.InterfaceAudience not found
1 warning
Run Code Online (Sandbox Code Playgroud) 大家好,我是编程的初学者,我最近得到了创建这个程序的任务,我发现很难.我以前设计过一个程序来计算用户输入的句子中的单词数,是否可以修改这个程序来实现我想要的?
import string
def main():
print "This program calculates the number of words in a sentence"
print
p = raw_input("Enter a sentence: ")
words = string.split(p)
wordCount = len(words)
print "The total word count is:", wordCount
main()
Run Code Online (Sandbox Code Playgroud) 我有一个叫做'ticket_diary_comment'列的表叫做'comment_text'.此列填充了文本数据.我想得到整个专栏中出现的所有单词的频率.例如:
Comment_Text
I am a good guy
I am a bad guy
I am not a guy
Run Code Online (Sandbox Code Playgroud)
我想要的是:
Word Frequency
I 3
good 1
bad 1
not 1
guy 3
Run Code Online (Sandbox Code Playgroud)
请注意,我还删除了输出中的停用词.我知道计算一个特定单词的频率并不困难,但我正在寻找能够计算一列中出现停用词的所有单词的东西.
我很感激在这个问题上提供任何帮助.我还想提一下,我必须在大数据集(大约1 TB)上应用此查询,因此性能是一个问题.
我希望vim在状态栏中显示总文档字数(显示当前行和字符编号).我在SO上遇到过类似的问题,并尝试了这里和这里提到的所有建议- 但是我们的状态栏中没有任何一个有任何影响.
为了明确地命名一些,我尝试在我的~/.vimrc(以及随后重新启动的vim)中粘贴以下任何内容:
function! CountNonEmpty()
let l = 1
let char_count = 0
while l <= line("$")
if len(substitute(getline(l), '\s', '', 'g')) > 3
let char_count += 1
endif
let l += 1
endwhile
return char_count
endfunction
function WordCount()
let s:old_status = v:statusmsg
exe "silent normal g\<c-g>"
let s:word_count = str2nr(split(v:statusmsg)[11])
let v:statusmsg = s:old_status
return s:word_count
endfunction
" If buffer modified, update any 'Last modified: ' in the first 20 lines.
" 'Last …Run Code Online (Sandbox Code Playgroud) 我想使用ASP.NET RegularExpressionValidator来限制文本框中的单词数.(RegularExpressionValidator是我最喜欢的解决方案,因为它将同时进行客户端和服务器端检查).
那么正确的正则表达式放在RegularExpressionValidator中,它会计算单词并强制执行单词限制?可以说,150字.
(注意:我看到这个问题是类似的,但给出的答案似乎也依赖于像Split()这样的代码,所以我认为它们中的任何一个都不能插入RegularExpressionValidator,这就是为什么我要再问一次)
我是计算机科学专业的学生,正在通过netbeans 7.0.1在大学提交java项目,今天我的教师问我你的项目完成了多少,我自信地回答说,是的先生已经完成了大约50%,他说我编码了多少行,我只是说"嗯,不确切地知道爵士",他回答说,"你真的在工作,或者只是从某个地方购买它!",我的脑子一片空白!:D
我用Google搜索并发现了一个针对netbeans 的WordCount插件,但它在NetBeans 7中不起作用,或者我可能不知道它是如何工作的......
任何可用于NetBeans 7.x的WordCount的替代品?
或者其他任何方式,除了在整个应用程序中手动计算线路?
直接,我的代码到目前为止是这样的:
from glob import glob
pattern = "D:\\report\\shakeall\\*.txt"
filelist = glob(pattern)
def countwords(fp):
with open(fp) as fh:
return len(fh.read().split())
print "There are" ,sum(map(countwords, filelist)), "words in the files. " "From directory",pattern
Run Code Online (Sandbox Code Playgroud)
我想添加一个代码来计算模式中的唯一单词(此路径中有42个txt文件),但我不知道如何.有谁能够帮我?
我正在尝试在Cloudera 4的Linux(CentOS)安装上编译一个简单的WordCount.java map-reduce示例.当我引用任何hadoop类时,我一直在遇到编译器错误,但我无法弄清楚哪个罐子是/ usr/lib/hadoop下的数百个我需要添加到我的类路径来编译.任何帮助将不胜感激!我最喜欢的是一个用于字数统计的java文件(以防万一我找到的那个由于某种原因是坏的)以及编译和运行它的相关命令.
我试图使用javac而不是Eclipse来做到这一点.我的主要问题是Cloudera 4安装的Hadoop库究竟是什么,我需要包含这些库以便编译经典的WordCount示例.基本上,我需要将Java MapReduce API类(Mapper,Reducer等)放在我的类路径中.
我试图在23万字的列表上计算重复的单词.我使用python字典这样做.代码如下:
for words in word_list:
if words in word_dict.keys():
word_dict[words] += 1
else:
word_dict[words] = 1
Run Code Online (Sandbox Code Playgroud)
上面的代码用了3分钟!我运行相同的代码超过150万字,它运行超过25分钟,我失去了耐心并终止.后来我发现,我可以使用从下面的代码在这里(如下所示).结果是如此令人惊讶,它在几秒钟内完成!所以我的问题是什么是更快的方式来做这个操作?我想字典创建过程必须花费O(N)时间.Counter方法如何能够在几秒钟内完成此过程,并创建一个精确的单词词典作为键和频率的值?
from collections import Counter
word_dict = Counter(word_list)
Run Code Online (Sandbox Code Playgroud) 我在 tinymce 之外有一个字数统计 div,它显示字数但没有使用 wordCount 插件,而是使用正则表达式来计算字数。
但是当我添加项目符号或对已经输入的文本应用粗体时,这个计数没有显示正确的值[它显示计数为 3,而我在使用项目符号时只输入了一个单词,并在突出显示的同时将计数增加 2输入文本]
当使用粗体或斜体、下划线或项目符号或使用 wordCount 插件在 stauts 栏外使用它的输出时,任何人都可以建议在正则表达式中做什么以获得正确的计数[在这种情况下在我的字数 div]
这是代码:
tinymceConfig = {
mode:"exact",
elements:"essay",
menubar: false,
statusbar: false,
plugins: "autoresize",
content_css : '../../theme/css/Language/editor.css',
toolbar : "bold italic underline bullist",
resize:"height",
autoresize_max_height: 325,
setup : function(editor) {
if ($('#essay').prop('readonly')) {
editor.settings.readonly = true;
}
editor.on('keydown', function (evt) {
var wordCount = 0;
var valid_keys = [8, 46];
text = editor.getContent().replace(/(< ([^>]+)<)/g, '').replace(/\s+/g, ' ');
text = text.replace(/^\s\s*/, '').replace(/\s\s*$/, '');
wordCount = text.split(' ').length-1;
if(wordCount …Run Code Online (Sandbox Code Playgroud) word-count ×10
python ×3
cloudera ×2
hadoop ×2
java ×2
javac ×2
regex ×2
asp.net ×1
compilation ×1
dictionary ×1
file ×1
hashtable ×1
javascript ×1
netbeans ×1
performance ×1
sql ×1
sql-server ×1
tinymce ×1
validation ×1
vim ×1