我有一个PIG脚本,它产生四个结果我想将它们存储在一个文件中.我尝试使用UNION,但是当我使用时,UNION我得到四个文件part-m-00000,part-m-00001,part-m-00002,part-m-00003.我不能得到一个文件?
这是PIG脚本
A = UNION Message_1,Message_2,Message_3,Message_4 into 'AA';
Run Code Online (Sandbox Code Playgroud)
在AA文件夹里面我得到了4个文件,如上所述.我不能得到包含所有条目的单个文件吗?
我是Hadoop/PIG的新手.我有一个基本问题.
我们在PIG UDF中有一个Logging工具吗?我编写了一个UDF,我需要验证我需要记录某些语句来检查流程.有可用的测井设施吗?如果是,猪日志在哪里?
HDFS如何存储数据?
我想以压缩方式存储大文件.
例如:我有1.5 GB的文件,默认复制因子为3.
它需要(1.5)*3 = 4.5 GB的空间.
我相信目前没有隐式压缩数据.
是否有一种压缩文件并将其存储在HDFS中以节省磁盘空间的技术?
我有以下猪脚本:
我的文件1.txt有A 1
B 2
C 3
D 4
grunt> A = load '1.txt' using PigStorage(' ') as (a:chararray,b:int);
grunt> B = foreach A generate A.a;
grunt> dump B;
Run Code Online (Sandbox Code Playgroud)
它给了我以下错误
错误org.apache.pig.tools.grunt.Grunt - 错误2997:无法从支持的错误重新创建异常:org.apache.pig.backend.executionengine.ExecException:错误0:标量在输出中有多行.第1名:(A,1),第2名:(B,2)
在哪里可以找到有关LoadFunc的更多信息/示例.除了http://web.archive.org/web/20130701024312/http://ofps.oreilly.com/titles/9781449302641/load_and_store_funcs.html, 我没有看到任何使用新LoadFunc APis的示例.任何人都可以告诉我在哪里可以找到编写Load UDF的示例?