我试图在Hadoop环境中执行NLTK.以下是我用于执行的命令.
斌/ Hadoop的罐子$ HADOOP_HOME /的contrib /流/ Hadoop的流-1.0.4.jar - 输入/用户/ NLTK /输入/ - 输出/用户/ NLTK /输出1/-file /家庭/ hduser /软件/ NLTK/unsupervised_sentiment -master.zip -mapper /home/hduser/softwares/NLTK/unsupervised_sentiment-master/sentiment.py
unsupervised_sentiment-master.zip ---包含sentiment.py所需的所有相关文件
我正进入(状态
了java.lang.RuntimeException:PipeMapRed.waitOutputThreads():在子进程在org.apache.hadoop.streaming.PipeMapRed.mapRedFinished org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:362)与代码2失败(PipeMapRed的.java:576)在org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:135)在org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:57)在org.apache.hadoop. streaming.PipeMapRunner.run(PipeMapRunner.java:36)在org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:436)在org.apache.hadoop.mapred.MapTask.run(MapTask.java:372)在org.apache.hadoop.mapred.Child $ 4.run(Child.java:255)在java.security.AccessController.doPrivileged(本机方法)在javax.security.auth.Subject.doAs(Subject.java:415)在org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)org.apache.hadoop.mapred.Child.main(Child.java:249)
任何帮助将不胜感激!!!
解释方法给出了以下结果
{
"cursor" : "BtreeCursor headers.From_1",
"isMultiKey" : false,
"n" : 83057,
"nscannedObjects" : 120477,
"nscanned" : 120477,
"nscannedObjectsAllPlans" : 120581,
"nscannedAllPlans" : 120581,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 250,
"indexBounds" : {
"headers.From" : [
[
{
"$minElement" : 1
},
{
"$maxElement" : 1
}
]
]
},
"server" : "Andrews-iMac.local:27017"
}
Run Code Online (Sandbox Code Playgroud)
我的收藏中有120477条记录,这是否意味着我的查询执行完整的收集扫描?
任何帮助是极大的赞赏 !!!
假设您有一个三节点副本集.节点1是主要的.节点2是辅助节点,节点3是辅助运行,延迟为10秒.对数据库的所有写操作都是以w = most和j = 1发出的(我们的意思是getLastError调用设置了这些值).
在时间= 0时从您的应用程序启动写入操作(可以是插入或更新).在时间= 5秒时,主节点1关闭一小时,另一个节点被选为主节点.
节点1重新启动时是否会回滚数据?选择最佳答案.
任何帮助将不胜感激.