我试图在hadoop服务器上运行以下java代码.
javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar -d wordcount_classes WordCount.java
Run Code Online (Sandbox Code Playgroud)
但我无法找到{HADOOP_HOME}.我尝试过,hadoop -classpath但它输出如下:
/etc/hadoop/conf:/usr/lib/hadoop/lib/*:/usr/lib/hadoop/.//*:/usr/lib/hadoop-hdfs/./:/usr/lib/hadoop-hdfs/lib/*:/usr/lib/hadoop-hdfs/.//*:/usr/lib/hadoop-yarn/.//*:/usr/lib/hadoop-0.20-mapreduce/./:/usr/lib/hadoop-0.20-mapreduce/lib/*:/usr/lib/hadoop-0.20-mapreduce/.//*
Run Code Online (Sandbox Code Playgroud)
有人对此有任何想法吗?
我正在使用PigLatin.我想从包中删除重复项,并希望保留特定键的最后一个元素.
Input:
User1 7 LA
User1 8 NYC
User1 9 NYC
User2 3 NYC
User2 4 DC
Output:
User1 9 NYC
User2 4 DC
Run Code Online (Sandbox Code Playgroud)
这里第一个提交是关键.我希望在输出中保留该特定键的最后一条记录.
我知道如何保留第一个元素.如下.但是无法保留最后一个元素.
inpt = load '......' ......;
user_grp = GROUP inpt BY $0;
filtered = FOREACH user_grp {
top_rec = LIMIT inpt 1;
GENERATE FLATTEN(top_rec);
};
Run Code Online (Sandbox Code Playgroud)
有人可以帮我这个吗?提前致谢!