Windows服务器上的Hadoop

MongoDB部署尚未分片,我们有1x replicaset,1个master和2个slave,所有这些都是ec2上的m2.2xlarge类型.每个实例都由1TB RAID0条带支持,该条带由8个卷组成(无PIOPS).我们使用带有c ++本机BSON解析器的node-mongodb-native驱动程序来获得最佳写入性能,并尝试相应地对文档结构建模.

注意

文件很小(120字节)
该文件包括"时间桶"(h [我们],d [ay],m [onth],y [ear])以及"t [ime]"字段
我们在集合上有一个索引,用"c [ustomer]"和"a"查询,这是一个高度随机但非唯一的标签
我们已经考虑将数据分区为单独的集合,但在此示例中,所有数据都很热.
我们也在研究预聚合,尽管这不能实时完成.

需求

对于报告,我们需要计算每月唯一"a"标记的数量,以及客户在任何给定时期内的总数
报告需要大约60秒来运行2小时内存储的9.5MM文档的样本(完整集合).详情如下:

文献

{
  _id: ObjectID(),
  a: ‘string’,
  b: ‘string’,
  c: ‘string’ or <int>,
  g: ‘string’ or <not_exist>,
  t: ISODate(),
  h: <int>,
  d: <int>,
  m: <int>,
  y: <int>
}

Run Code Online (Sandbox Code Playgroud)

指数

col.ensureIndex({ c: 1, a: 1, y: 1, m: 1, d: 1, h: 1 });

Run Code Online (Sandbox Code Playgroud)

聚合查询

col.aggregate([
    { $match: { c: 'customer_1', y: 2013, m: 11 } },
    { $group: { _id: …

Run Code Online (Sandbox Code Playgroud)

indexing mapreduce mongodb aggregation-framework

Ash*_*ner

2014 01-26

15
推荐指数

2
解决办法

8055
查看次数

纱线不尊重yarn.nodemanager.resource.cpu-vcores

我正在使用Hadoop-2.4.0,我的系统配置是24核,96 GB RAM.

我正在使用以下配置

mapreduce.map.cpu.vcores=1
yarn.nodemanager.resource.cpu-vcores=10
yarn.scheduler.minimum-allocation-vcores=1
yarn.scheduler.maximum-allocation-vcores=4
yarn.app.mapreduce.am.resource.cpu-vcores=1

yarn.nodemanager.resource.memory-mb=88064
mapreduce.map.memory.mb=3072
mapreduce.map.java.opts=-Xmx2048m

Run Code Online (Sandbox Code Playgroud)

容量调度程序配置

queue.default.capacity=50
queue.default.maximum_capacity=100
yarn.scheduler.capacity.root.default.user-limit-factor=2

Run Code Online (Sandbox Code Playgroud)

有了上述配置,我预计每个节点纱线不会超过10个映射器,但它每个节点启动28个映射器.难道我做错了什么？？

hadoop mapreduce cloudera hadoop-yarn hadoop2

ban*_*ara

2014 08-29

15
推荐指数

1
解决办法

7905
查看次数

HDFS和NFS之间的区别？

我是新手.想知道hadoop分布式文件系统和网络文件系统之间的基本区别,以及hdfs比nfs有什么好处？

unix operating-system hadoop mapreduce

Alo*_*hak

lucky-day

15
推荐指数

1
解决办法

7942
查看次数

由于"由ApplicationMaster杀死的容器",Hadoop Mapper失败了

我正在尝试在Hadoop上执行map reduce程序.

当我将我的工作提交给hadoop单节点集群时.工作正在创建,但失败了

"由ApplicationMaster杀死的容器"

使用的输入大小为10 MB.

当我使用输入文件400 KB的相同脚本时,它成功了.但是没有输入大小为10 MB的文件.

我终端中显示的完整日志如下.

    15/05/29 09:52:16 WARN util.NativeCodeLoader: Unable to `load native-  hadoop library for your platform... using builtin-java classes      where applicable
Submitting job on the cluster...
15/05/29 09:52:17 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
15/05/29 09:52:18 INFO input.FileInputFormat: Total input paths to process : 1
15/05/29 09:52:18 INFO mapreduce.JobSubmitter: number of splits:1
15/05/29 09:52:19 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1432910768528_0001
15/05/29 09:52:19 INFO impl.YarnClientImpl: Submitted application application_1432910768528_0001
15/05/29 09:52:19 INFO mapreduce.Job: …

Run Code Online (Sandbox Code Playgroud)

java linux hadoop mapreduce

Har*_*rry

lucky-day

15
推荐指数

1
解决办法

4万
查看次数