标签: mapreduce

Mongodb Aggregation框架比map/reduce更快吗?

mongodb 2.2中引入的聚合框架是否比map/reduce有任何特殊的性能改进?

如果是,为什么,如何以及多少?

(我已经为自己做过测试了,性能几乎相同)

performance mapreduce mongodb aggregation-framework

53
推荐指数
2
解决办法
2万
查看次数

hadoop mapreduce框架在哪里发送我的System.out.print()语句?(标准输出)

我想调试一个mapreduce脚本,并且没有遇到太多麻烦试图在我的程序中放置一些print语句.但我似乎无法在任何日志中找到它们.

hadoop mapreduce

52
推荐指数
4
解决办法
6万
查看次数

通过关键字段查找MongoDB集合中的所有重复文档

假设我有一些包含一些文档的集合.这样的事情.

{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":1, "name" : "foo"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":2, "name" : "bar"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":3, "name" : "baz"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":4, "name" : "foo"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":5, "name" : "bar"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":6, "name" : "bar"}
Run Code Online (Sandbox Code Playgroud)

我想通过"name"字段找到此集合中的所有重复条目.例如,"foo"出现两次,"bar"出现3次.

mapreduce duplicates mongodb aggregation-framework

52
推荐指数
3
解决办法
4万
查看次数

简单的Java Map/Reduce框架

任何人都可以指向一个简单的,开源的Map/Reduce框架/ API for Java?似乎没有太多证据证明存在这样的事情,但其他人可能知道不同.

当然,我能找到的最好的是Hadoop MapReduce,但这不符合"简单"标准.我不需要运行分布式作业的能力,只需要让我在一个JVM中使用标准Java5风格的并发在多核机器上运行map/reduce-style作业.

写自己并不难,但我宁愿不必这么做.

java mapreduce

49
推荐指数
6
解决办法
3万
查看次数

使用mapred或mapreduce包来创建Hadoop作业会更好吗?

要创建MapReduce作业,您可以使用旧org.apache.hadoop.mapred包或org.apache.hadoop.mapreduceMapper和Reducers,Jobs ... 的新包.第一个已被标记为已弃用但同时也已恢复.现在我想知道使用旧的mapred包或新的mapreduce包来创建作业以及为什么更好.或者它只取决于您是否需要像旧的mapred包中可用的MultipleTextOutputFormat之类的东西?

hadoop mapreduce

45
推荐指数
2
解决办法
2万
查看次数

HDFS中的数据块大小,为什么是64MB?

HDFS/hadoop的默认数据块大小为64MB.磁盘中的块大小通常为4KB.64MB块大小是什么意思? - >这是否意味着从磁盘读取的最小单位是64MB?

如果是,那么这样做有什么好处? - >在HDFS中连续访问大文件很容易吗?

我们可以通过在磁盘中使用原始的4KB块大小来做同样的事情吗?

database hadoop mapreduce block hdfs

43
推荐指数
2
解决办法
7万
查看次数

Fork/Join和Map/Reduce之间的区别

Fork/Join和Map/Reduce之间的主要区别是什么?

它们的分解和分布类型(数据与计算)有何不同?

mapreduce fork-join

42
推荐指数
2
解决办法
8455
查看次数

MongoDB:糟糕的MapReduce性能

我对关系数据库有很长的历史,但我是MongoDB和MapReduce的新手,所以我几乎肯定我一定做错了.我会直接进入问题.对不起,如果它很长.

我在MySQL中有一个数据库表,用于跟踪每天的成员个人资料视图的数量.对于测试,它有10,000,000行.

CREATE TABLE `profile_views` (
  `id` int(10) unsigned NOT NULL auto_increment,
  `username` varchar(20) NOT NULL,
  `day` date NOT NULL,
  `views` int(10) unsigned default '0',
  PRIMARY KEY  (`id`),
  UNIQUE KEY `username` (`username`,`day`),
  KEY `day` (`day`)
) ENGINE=InnoDB;
Run Code Online (Sandbox Code Playgroud)

典型数据可能如下所示.

+--------+----------+------------+------+
| id     | username | day        | hits |
+--------+----------+------------+------+
| 650001 | Joe      | 2010-07-10 |    1 |
| 650002 | Jane     | 2010-07-10 |    2 |
| 650003 | Jack     | 2010-07-10 |    3 |
| 650004 | Jerry …
Run Code Online (Sandbox Code Playgroud)

mapreduce mongodb nosql

42
推荐指数
3
解决办法
3万
查看次数

Spark中的gzip支持

对于大数据项目,我计划使用spark,它具有一些很好的功能,如内存计算,用于重复的工作负载.它可以在本地文件上运行,也可以在HDFS上运行.

但是,在官方文档中,我找不到任何关于如何处理gzip文件的提示.实际上,处理.gz文件而不是解压缩文件会非常有效.

有没有办法手动实现gzip压缩文件的读取或在读取.gz文件时已经自动解压缩?

java gzip scala mapreduce apache-spark

42
推荐指数
1
解决办法
4万
查看次数

使用Apache Spark将键值对减少为键列表对

我正在编写一个Spark应用程序,并希望将一组键值对组合(K, V1), (K, V2), ..., (K, Vn)成一个Key-Multivalue对(K, [V1, V2, ..., Vn]).我觉得我应该能够使用reduceByKey具有某种风味的功能来做到这一点:

My_KMV = My_KV.reduce(lambda a, b: a.append([b]))
Run Code Online (Sandbox Code Playgroud)

发生这种情况时我得到的错误是:

'NoneType'对象没有attribue'追加'.

我的键是整数,值V1,...,Vn是元组.我的目标是使用密钥和值列表(元组)创建一对.

python mapreduce apache-spark rdd pyspark

42
推荐指数
4
解决办法
8万
查看次数