我正在使用亚马逊S3的Web界面,当我右键单击文件夹X并选择删除时,X似乎被删除了.然后,当我刷新界面时,X可能会消失或保留; 如果我一直点击刷新,则该文件夹丢失或存在.这是一个错误,还是我做错了什么?该文件夹是仍然存在,据我可以告诉; 我的一个EMR作业抱怨输出文件夹X仍然存在.
Amazon EMR用于向集群添加步骤的文档表明,单个Elastic MapReduce步骤可以向Hadoop提交多个作业.但是,步骤配置的Amazon EMR文档表明,单个步骤只能容纳hadoop-streaming.jar的一次执行(即,HadoopJarStep是HadoopJarStepConfig而不是HadoopJarStepConfigs数组).
在一个步骤中向Hadoop提交多个作业的正确语法是什么?
根据http://blog.cloudera.com/blog/2014/04/apache-hadoop-yarn-avoiding-6-time-consuming-gotchas/,确定每个节点并发运行任务数的公式为:
min (yarn.nodemanager.resource.memory-mb / mapreduce.[map|reduce].memory.mb,
yarn.nodemanager.resource.cpu-vcores / mapreduce.[map|reduce].cpu.vcores) .
Run Code Online (Sandbox Code Playgroud)
但是,将这些参数设置为(对于c3.2xlarges的集群):
yarn.nodemanager.resource.memory-mb = 14336
mapreduce.map.memory.mb = 2048
yarn.nodemanager.resource.cpu-vcores = 8
mapreduce.map.cpu.vcores = 1,
我发现当公式显示7应该是每个节点时,我只能同时运行4个任务.这是怎么回事?
我在AMI 3.1.0上运行Hadoop 2.4.0.
amazon-web-services elastic-map-reduce hadoop-streaming hadoop-yarn hadoop2
http://stat.ethz.ch/R-manual/R-devel/library/cluster/html/clusplot.default.html上的R文档对我没有帮助.码:
somedata = read.data("somefile.tsv")
clustered = kmeans(somedata, 5)
library(cluster)
clusplot(somedata, clustered$cluster, cex=0.1, ..??whatshouldgohere??..)
Run Code Online (Sandbox Code Playgroud)