小编Bre*_*nen的帖子

如何写'仅限地图'hadoop工作?

我是hadoop的新手,我对map-reduce编程的风格越来越熟悉,但现在我遇到了一个问题:有时候我只需要映射一个工作而我只需要将地图结果直接作为输出,这意味着减少这里不需要阶段,我该如何实现?

hadoop mapreduce

41
推荐指数
3
解决办法
3万
查看次数

如何在Mahout K-means聚类中维护数据输入ID

我正在使用mahout来运行k-means聚类,我在集群时遇到了识别数据条目的问题,例如我有100个数据条目

id      data
0       0.1 0.2 0.3 0.4
1       0.2 0.3 0.4 0.5
...     ...
100     0.2 0.4 0.4 0.5
Run Code Online (Sandbox Code Playgroud)

在集群之后,我需要从集群结果中获取id以查看哪个点属于哪个集群,但似乎没有方法来维护id.

在聚合合成控制数据的官方mahout示例中,只有数据被输入到没有id的mahout

28.7812 34.4632 31.3381 31.2834 28.9207 ...
...
24.8923 25.741  27.5532 32.8217 27.8789 ...
Run Code Online (Sandbox Code Playgroud)

并且集群结果只有cluster-id和point值:

VL-539{n=38 c=[29.950, 30.459, ...
   Weight:  Point:
   1.0: [28.974, 29.026, 31.404, 27.894, 35.985...
   2.0: [24.214, 33.150, 31.521, 31.986, 29.064
Run Code Online (Sandbox Code Playgroud)

但是没有point-id存在,那么,任何人都可以知道如何在进行mahout聚类时添加维持一个point-id?非常感谢你!

apache hadoop k-means mahout

5
推荐指数
1
解决办法
1284
查看次数

如何在PIG或HIVE中为行添加行号?

使用Apache Pig添加行号时遇到问题.问题是我有一个STR_ID列,我想为STR_ID中的数据添加一个ROW_NUM列,这是STR_ID的行号.

例如,这是输入:

STR_ID
------------
3D64B18BC842
BAECEFA8EFB6
346B13E4E240
6D8A9D0249B4
9FD024AA52BA
Run Code Online (Sandbox Code Playgroud)

我如何获得如下输出:

   STR_ID    |   ROW_NUM
----------------------------
3D64B18BC842 |     1
BAECEFA8EFB6 |     2
346B13E4E240 |     3
6D8A9D0249B4 |     4
9FD024AA52BA |     5
Run Code Online (Sandbox Code Playgroud)

使用Pig或Hive的答案是可以接受的.谢谢.

hadoop hive apache-pig

5
推荐指数
2
解决办法
3万
查看次数

如何在猪中生成行号?

我正在使用猪进行数据准备,我遇到了一个似乎很容易但我无法处理的问题:

例如,我有一列名字

name
------
Alicia
Ana
Benita 
Berta 
Bertha 
Run Code Online (Sandbox Code Playgroud)

那么如何为每个名称添加行号?结果会是这样的:

name    |  id
----------------
Alicia  |  1
Ana     |  2
Benita  |  3
Berta   |  4
Bertha  |  5
Run Code Online (Sandbox Code Playgroud)

感谢您阅读此问题!

hadoop apache-pig

4
推荐指数
1
解决办法
7929
查看次数

标签 统计

hadoop ×4

apache-pig ×2

apache ×1

hive ×1

k-means ×1

mahout ×1

mapreduce ×1