标签: mapreduce

{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":1, "name" : "foo"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":2, "name" : "bar"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":3, "name" : "baz"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":4, "name" : "foo"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":5, "name" : "bar"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":6, "name" : "bar"}

Run Code Online (Sandbox Code Playgroud)

我想通过"name"字段找到此集合中的所有重复条目.例如,"foo"出现两次,"bar"出现3次.

mapreduce duplicates mongodb aggregation-framework

Moh*_*hit

2017 06-02

52
推荐指数

3
解决办法

4万
查看次数

简单的Java Map/Reduce框架

任何人都可以指向一个简单的,开源的Map/Reduce框架/ API for Java？似乎没有太多证据证明存在这样的事情,但其他人可能知道不同.

当然,我能找到的最好的是Hadoop MapReduce,但这不符合"简单"标准.我不需要运行分布式作业的能力,只需要让我在一个JVM中使用标准Java5风格的并发在多核机器上运行map/reduce-style作业.

写自己并不难,但我宁愿不必这么做.

java mapreduce

ska*_*man

lucky-day

49
推荐指数

6
解决办法

3万
查看次数

使用mapred或mapreduce包来创建Hadoop作业会更好吗？

要创建MapReduce作业,您可以使用旧org.apache.hadoop.mapred包或org.apache.hadoop.mapreduceMapper和Reducers,Jobs ... 的新包.第一个已被标记为已弃用但同时也已恢复.现在我想知道使用旧的mapred包或新的mapreduce包来创建作业以及为什么更好.或者它只取决于您是否需要像旧的mapred包中可用的MultipleTextOutputFormat之类的东西？

hadoop mapreduce

mom*_*o13

2015 03-22

45
推荐指数

2
解决办法

2万
查看次数

HDFS中的数据块大小,为什么是64MB？

HDFS/hadoop的默认数据块大小为64MB.磁盘中的块大小通常为4KB.64MB块大小是什么意思？ - >这是否意味着从磁盘读取的最小单位是64MB？

如果是,那么这样做有什么好处？ - >在HDFS中连续访问大文件很容易吗？

我们可以通过在磁盘中使用原始的4KB块大小来做同样的事情吗？

database hadoop mapreduce block hdfs

dyk*_*ykw

lucky-day

43
推荐指数

2
解决办法

7万
查看次数

Fork/Join和Map/Reduce之间的区别

Fork/Join和Map/Reduce之间的主要区别是什么？

它们的分解和分布类型(数据与计算)有何不同？

mapreduce fork-join

hot*_*zen

2012 07-25

42
推荐指数

2
解决办法

8455
查看次数

MongoDB:糟糕的MapReduce性能

我对关系数据库有很长的历史,但我是MongoDB和MapReduce的新手,所以我几乎肯定我一定做错了.我会直接进入问题.对不起,如果它很长.

我在MySQL中有一个数据库表,用于跟踪每天的成员个人资料视图的数量.对于测试,它有10,000,000行.

CREATE TABLE `profile_views` (
  `id` int(10) unsigned NOT NULL auto_increment,
  `username` varchar(20) NOT NULL,
  `day` date NOT NULL,
  `views` int(10) unsigned default '0',
  PRIMARY KEY  (`id`),
  UNIQUE KEY `username` (`username`,`day`),
  KEY `day` (`day`)
) ENGINE=InnoDB;

Run Code Online (Sandbox Code Playgroud)

典型数据可能如下所示.

+--------+----------+------------+------+
| id     | username | day        | hits |
+--------+----------+------------+------+
| 650001 | Joe      | 2010-07-10 |    1 |
| 650002 | Jane     | 2010-07-10 |    2 |
| 650003 | Jack     | 2010-07-10 |    3 |
| 650004 | Jerry …

Run Code Online (Sandbox Code Playgroud)

mapreduce mongodb nosql

mel*_*oon

2017 09-23

42
推荐指数

3
解决办法

3万
查看次数

Spark中的gzip支持

对于大数据项目,我计划使用spark,它具有一些很好的功能,如内存计算,用于重复的工作负载.它可以在本地文件上运行,也可以在HDFS上运行.

但是,在官方文档中,我找不到任何关于如何处理gzip文件的提示.实际上,处理.gz文件而不是解压缩文件会非常有效.

有没有办法手动实现gzip压缩文件的读取或在读取.gz文件时已经自动解压缩？

java gzip scala mapreduce apache-spark

pti*_*obj

2019 03-29

42
推荐指数

1
解决办法

4万
查看次数

使用Apache Spark将键值对减少为键列表对

我正在编写一个Spark应用程序,并希望将一组键值对组合(K, V1), (K, V2), ..., (K, Vn)成一个Key-Multivalue对(K, [V1, V2, ..., Vn]).我觉得我应该能够使用reduceByKey具有某种风味的功能来做到这一点:

My_KMV = My_KV.reduce(lambda a, b: a.append([b]))

Run Code Online (Sandbox Code Playgroud)

发生这种情况时我得到的错误是:

'NoneType'对象没有attribue'追加'.

我的键是整数,值V1,...,Vn是元组.我的目标是使用密钥和值列表(元组)创建一对.

python mapreduce apache-spark rdd pyspark

Tra*_*isJ

2017 08-17

42
推荐指数

4
解决办法

8万
查看次数

标签统计

mapreduce ×10

hadoop ×3

mongodb ×3

aggregation-framework ×2

apache-spark ×2

java ×2

block ×1

database ×1

duplicates ×1

fork-join ×1

gzip ×1

hdfs ×1

nosql ×1

performance ×1

pyspark ×1

python ×1

rdd ×1

scala ×1

标签 统计

标签统计