小编Ani*_*iya的帖子

如何在Linux上找到HADOOP_HOME路径？

我试图在hadoop服务器上运行以下java代码.

javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar -d wordcount_classes WordCount.java

Run Code Online (Sandbox Code Playgroud)

但我无法找到{HADOOP_HOME}.我尝试过,hadoop -classpath但它输出如下:

/etc/hadoop/conf:/usr/lib/hadoop/lib/*:/usr/lib/hadoop/.//*:/usr/lib/hadoop-hdfs/./:/usr/lib/hadoop-hdfs/lib/*:/usr/lib/hadoop-hdfs/.//*:/usr/lib/hadoop-yarn/.//*:/usr/lib/hadoop-0.20-mapreduce/./:/usr/lib/hadoop-0.20-mapreduce/lib/*:/usr/lib/hadoop-0.20-mapreduce/.//*

Run Code Online (Sandbox Code Playgroud)

有人对此有任何想法吗？

linux hadoop

Ani*_*iya

2015 10-22

9
推荐指数

1
解决办法

5万
查看次数

使用PigLatin删除重复项并保留最后一个元素

我正在使用PigLatin.我想从包中删除重复项,并希望保留特定键的最后一个元素.

Input:
User1  7 LA 
User1  8 NYC 
User1  9 NYC 
User2  3 NYC
User2  4 DC 


Output:
User1  9 NYC 
User2  4 DC

Run Code Online (Sandbox Code Playgroud)

这里第一个提交是关键.我希望在输出中保留该特定键的最后一条记录.

我知道如何保留第一个元素.如下.但是无法保留最后一个元素.

inpt = load '......' ......;
user_grp = GROUP inpt BY $0;
filtered = FOREACH user_grp {
      top_rec = LIMIT inpt 1;
      GENERATE FLATTEN(top_rec);
};

Run Code Online (Sandbox Code Playgroud)

有人可以帮我这个吗？提前致谢!

hadoop duplicate-removal apache-pig datastage

Ani*_*iya

lucky-day

1
推荐指数

1
解决办法

1744
查看次数