小编Ani*_*iya的帖子

如何在Linux上找到HADOOP_HOME路径?

我试图在hadoop服务器上运行以下java代码.

javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar -d wordcount_classes WordCount.java
Run Code Online (Sandbox Code Playgroud)

但我无法找到{HADOOP_HOME}.我尝试过,hadoop -classpath但它输出如下:

/etc/hadoop/conf:/usr/lib/hadoop/lib/*:/usr/lib/hadoop/.//*:/usr/lib/hadoop-hdfs/./:/usr/lib/hadoop-hdfs/lib/*:/usr/lib/hadoop-hdfs/.//*:/usr/lib/hadoop-yarn/.//*:/usr/lib/hadoop-0.20-mapreduce/./:/usr/lib/hadoop-0.20-mapreduce/lib/*:/usr/lib/hadoop-0.20-mapreduce/.//*
Run Code Online (Sandbox Code Playgroud)

有人对此有任何想法吗?

linux hadoop

9
推荐指数
1
解决办法
5万
查看次数

使用PigLatin删除重复项并保留最后一个元素

我正在使用PigLatin.我想从包中删除重复项,并希望保留特定键的最后一个元素.

Input:
User1  7 LA 
User1  8 NYC 
User1  9 NYC 
User2  3 NYC
User2  4 DC 


Output:
User1  9 NYC 
User2  4 DC 
Run Code Online (Sandbox Code Playgroud)

这里第一个提交是关键.我希望在输出中保留该特定键的最后一条记录.

我知道如何保留第一个元素.如下.但是无法保留最后一个元素.

inpt = load '......' ......;
user_grp = GROUP inpt BY $0;
filtered = FOREACH user_grp {
      top_rec = LIMIT inpt 1;
      GENERATE FLATTEN(top_rec);
};
Run Code Online (Sandbox Code Playgroud)

有人可以帮我这个吗?提前致谢!

hadoop duplicate-removal apache-pig datastage

1
推荐指数
1
解决办法
1744
查看次数

标签 统计

hadoop ×2

apache-pig ×1

datastage ×1

duplicate-removal ×1

linux ×1