标签: mapreduce

Windows服务器上的Hadoop

我正在考虑使用hadoop处理现有Windows 2003服务器上的大型文本文件(大约10个四核处理器,内存为16GB)

问题是:

  1. 有没有关于如何在Windows上配置hadoop集群的好教程?

  2. 有什么要求?java + cygwin + sshd?还要别的吗?

  3. HDFS,它在Windows上播放得很好吗?

  4. 我想在流模式下使用hadoop.在c#中开发我自己的mapper/reducer的任何建议,工具或技巧?

  5. 您用什么来提交和监控工作?

谢谢

c# windows hadoop mapreduce cluster-computing

15
推荐指数
2
解决办法
9100
查看次数

如何使用Cassandra的Map Reduce或者没有Pig?

有人可以解释MapReduce如何与Cassandra一起使用.6?我已经阅读了单词计数示例,但我并不完全了解Cassandra结束与"客户端"结束时发生的事情.

https://svn.apache.org/repos/asf/cassandra/trunk/contrib/word_count/

例如,假设我使用的是Python和Pycassa,我将如何加载新的map reduce函数,然后调用它?我的map reduce函数必须是安装在cassandra服务器上的java吗?如果是这样,我如何从Pycassa调用它?

还有提到猪使这一切变得更容易,但我是一个完整的Hadoop菜鸟,所以这并没有真正的帮助.

你的回答可以使用Thrift或者其他什么,我刚才提到Pycassa来表示客户端.我只是想了解Cassandra集群中运行的内容与发出请求的实际服务器之间的区别.

mapreduce apache-pig cassandra

15
推荐指数
1
解决办法
8910
查看次数

Avro入门

我想开始使用Avro和Map Reduce.有人可以建议一个很好的教程/示例来开始.通过互联网搜索我找不到多少.

mapreduce avro

15
推荐指数
1
解决办法
1万
查看次数

调用工作的区别

就是从调用MapReduce工作之间的区别main(),并从ToolRunner.run()?当我们说主要课程说,MapReduce extends Configured implements Tool如果我们只是从main方法中简单地完成工作,我们得到的额外特权是什么呢?谢谢.

java hadoop mapreduce

15
推荐指数
2
解决办法
7063
查看次数

计算中位数减少

有人可以举例说明地图中的中位数/分位数的计算吗?

我对Datafu中位数的理解是'n'映射器对数据进行排序并将数据发送到"1"reducer,它负责对n个映射器中的所有数据进行排序并找到中位数(中间值)我的理解是否正确?

如果是这样,这种方法是否适用于大量数据,因为我可以清楚地看到单个减速器正在努力完成最终任务.谢谢

statistics hadoop mapreduce apache-pig median

15
推荐指数
2
解决办法
1万
查看次数

MongoDB聚合框架性能比数百万个文档慢

背景

我们的系统是运营商级并且非常强大,它经过负载测试以处理每秒5000个事务,并且对于每个事务,文档被插入到单个MongoDB集合中(在此应用程序中没有更新或查询,它是只写的).这相当于每天约700MM的文件,这是我们的基准.

MongoDB部署尚未分片,我们有1x replicaset,1个master和2个slave,所有这些都是ec2上的m2.2xlarge类型.每个实例都由1TB RAID0条带支持,该条带由8个卷组成(无PIOPS).我们使用带有c ++本机BSON解析器的nod​​e-mongodb-native驱动程序来获得最佳写入性能,并尝试相应地对文档结构建模.

注意

  • 文件很小(120字节)
  • 该文件包括"时间桶"(h [我们],d [ay],m [onth],y [ear])以及"t [ime]"字段
  • 我们在集合上有一个索引,用"c [ustomer]"和"a"查询,这是一个高度随机但非唯一的标签
  • 我们已经考虑将数据分区为单独的集合,但在此示例中,所有数据都很热.
  • 我们也在研究预聚合,尽管这不能实时完成.

需求

  • 对于报告,我们需要计算每月唯一"a"标记的数量,以及客户在任何给定时期内的总数
  • 报告需要大约60秒来运行2小时内存储的9.5MM文档的样本(完整集合).详情如下:

文献

{
  _id: ObjectID(),
  a: ‘string’,
  b: ‘string’,
  c: ‘string’ or <int>,
  g: ‘string’ or <not_exist>,
  t: ISODate(),
  h: <int>,
  d: <int>,
  m: <int>,
  y: <int>
}
Run Code Online (Sandbox Code Playgroud)

指数

col.ensureIndex({ c: 1, a: 1, y: 1, m: 1, d: 1, h: 1 });
Run Code Online (Sandbox Code Playgroud)

聚合查询

col.aggregate([
    { $match: { c: 'customer_1', y: 2013, m: 11 } },
    { $group: { _id: …
Run Code Online (Sandbox Code Playgroud)

indexing mapreduce mongodb aggregation-framework

15
推荐指数
2
解决办法
8055
查看次数

纱线不尊重yarn.nodemanager.resource.cpu-vcores

我正在使用Hadoop-2.4.0,我的系统配置是24核,96 GB RAM.

我正在使用以下配置

mapreduce.map.cpu.vcores=1
yarn.nodemanager.resource.cpu-vcores=10
yarn.scheduler.minimum-allocation-vcores=1
yarn.scheduler.maximum-allocation-vcores=4
yarn.app.mapreduce.am.resource.cpu-vcores=1

yarn.nodemanager.resource.memory-mb=88064
mapreduce.map.memory.mb=3072
mapreduce.map.java.opts=-Xmx2048m
Run Code Online (Sandbox Code Playgroud)

容量调度程序配置

queue.default.capacity=50
queue.default.maximum_capacity=100
yarn.scheduler.capacity.root.default.user-limit-factor=2
Run Code Online (Sandbox Code Playgroud)

有了上述配置,我预计每个节点纱线不会超过10个映射器,但它每个节点启动28个映射器.难道我做错了什么??

hadoop mapreduce cloudera hadoop-yarn hadoop2

15
推荐指数
1
解决办法
7905
查看次数

HDFS和NFS之间的区别?

我是新手.想知道hadoop分布式文件系统和网络文件系统之间的基本区别,以及hdfs比nfs有什么好处?

unix operating-system hadoop mapreduce

15
推荐指数
1
解决办法
7942
查看次数

由于"由ApplicationMaster杀死的容器",Hadoop Mapper失败了

我正在尝试在Hadoop上执行map reduce程序.

当我将我的工作提交给hadoop单节点集群时.工作正在创建,但失败了

"由ApplicationMaster杀死的容器"

使用的输入大小为10 MB.

当我使用输入文件400 KB的相同脚本时,它成功了.但是没有输入大小为10 MB的文件.

我终端中显示的完整日志如下.

    15/05/29 09:52:16 WARN util.NativeCodeLoader: Unable to `load native-  hadoop library for your platform... using builtin-java classes      where applicable
Submitting job on the cluster...
15/05/29 09:52:17 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
15/05/29 09:52:18 INFO input.FileInputFormat: Total input paths to process : 1
15/05/29 09:52:18 INFO mapreduce.JobSubmitter: number of splits:1
15/05/29 09:52:19 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1432910768528_0001
15/05/29 09:52:19 INFO impl.YarnClientImpl: Submitted application application_1432910768528_0001
15/05/29 09:52:19 INFO mapreduce.Job: …
Run Code Online (Sandbox Code Playgroud)

java linux hadoop mapreduce

15
推荐指数
1
解决办法
4万
查看次数

Hadoop中的分割大小与块大小

Hadoop中分割大小和块大小之间的关系是什么?正如我在阅读,分割大小必须是块大小的n倍(n是一个整数且n> 0),这是正确的吗?分割大小和块大小之间有关系吗?

hadoop mapreduce hdfs

15
推荐指数
2
解决办法
2万
查看次数