我是hadoop的新手,我对map-reduce编程的风格越来越熟悉,但现在我遇到了一个问题:有时候我只需要映射一个工作而我只需要将地图结果直接作为输出,这意味着减少这里不需要阶段,我该如何实现?
我正在使用mahout来运行k-means聚类,我在集群时遇到了识别数据条目的问题,例如我有100个数据条目
id data
0 0.1 0.2 0.3 0.4
1 0.2 0.3 0.4 0.5
... ...
100 0.2 0.4 0.4 0.5
Run Code Online (Sandbox Code Playgroud)
在集群之后,我需要从集群结果中获取id以查看哪个点属于哪个集群,但似乎没有方法来维护id.
在聚合合成控制数据的官方mahout示例中,只有数据被输入到没有id的mahout
28.7812 34.4632 31.3381 31.2834 28.9207 ...
...
24.8923 25.741 27.5532 32.8217 27.8789 ...
Run Code Online (Sandbox Code Playgroud)
并且集群结果只有cluster-id和point值:
VL-539{n=38 c=[29.950, 30.459, ...
Weight: Point:
1.0: [28.974, 29.026, 31.404, 27.894, 35.985...
2.0: [24.214, 33.150, 31.521, 31.986, 29.064
Run Code Online (Sandbox Code Playgroud)
但是没有point-id存在,那么,任何人都可以知道如何在进行mahout聚类时添加维持一个point-id?非常感谢你!
使用Apache Pig添加行号时遇到问题.问题是我有一个STR_ID列,我想为STR_ID中的数据添加一个ROW_NUM列,这是STR_ID的行号.
例如,这是输入:
STR_ID
------------
3D64B18BC842
BAECEFA8EFB6
346B13E4E240
6D8A9D0249B4
9FD024AA52BA
Run Code Online (Sandbox Code Playgroud)
我如何获得如下输出:
STR_ID | ROW_NUM
----------------------------
3D64B18BC842 | 1
BAECEFA8EFB6 | 2
346B13E4E240 | 3
6D8A9D0249B4 | 4
9FD024AA52BA | 5
Run Code Online (Sandbox Code Playgroud)
使用Pig或Hive的答案是可以接受的.谢谢.
我正在使用猪进行数据准备,我遇到了一个似乎很容易但我无法处理的问题:
例如,我有一列名字
name
------
Alicia
Ana
Benita
Berta
Bertha
Run Code Online (Sandbox Code Playgroud)
那么如何为每个名称添加行号?结果会是这样的:
name | id
----------------
Alicia | 1
Ana | 2
Benita | 3
Berta | 4
Bertha | 5
Run Code Online (Sandbox Code Playgroud)
感谢您阅读此问题!