小编Uno*_*Uno的帖子

将UNION的结果存储在单个文件中的PIG中

我有一个PIG脚本,它产生四个结果我想将它们存储在一个文件中.我尝试使用UNION,但是当我使用时,UNION我得到四个文件part-m-00000,part-m-00001,part-m-00002,part-m-00003.我不能得到一个文件?

这是PIG脚本

A = UNION Message_1,Message_2,Message_3,Message_4 into 'AA';
Run Code Online (Sandbox Code Playgroud)

在AA文件夹里面我得到了4个文件,如上所述.我不能得到包含所有条目的单个文件吗?

hadoop apache-pig hdfs

7
推荐指数
1
解决办法
8363
查看次数

在PIG UDF中调试

我是Hadoop/PIG的新手.我有一个基本问题.

我们在PIG UDF中有一个Logging工具吗?我编写了一个UDF,我需要验证我需要记录某些语句来检查流程.有可用的测井设施吗?如果是,猪日志在哪里?

hadoop apache-pig hdfs

7
推荐指数
1
解决办法
6717
查看次数

HDFS中的存储格式

HDFS如何存储数据?

我想以压缩方式存储大文件.

例如:我有1.5 GB的文件,默认复制因子为3.

它需要(1.5)*3 = 4.5 GB的空间.

我相信目前没有隐式压缩数据.

是否有一种压缩文件并将其存储在HDFS中以节省磁盘空间的技术?

storage hadoop hdfs

5
推荐指数
1
解决办法
7194
查看次数

访问元组的字段

我有以下猪脚本:
我的文件1.txt有A 1
B 2
C 3
D 4

grunt> A = load '1.txt' using PigStorage(' ') as (a:chararray,b:int);  
grunt> B = foreach A generate A.a;  
grunt> dump B;
Run Code Online (Sandbox Code Playgroud)

它给了我以下错误

错误org.apache.pig.tools.grunt.Grunt - 错误2997:无法从支持的错误重新创建异常:org.apache.pig.backend.executionengine.ExecException:错误0:标量在输出中有多行.第1名:(A,1),第2名:(B,2)

hadoop apache-pig hdfs

3
推荐指数
1
解决办法
3543
查看次数

有关LoadFunc的示例和更多说明

在哪里可以找到有关LoadFunc的更多信息/示例.除了http://web.archive.org/web/20130701024312/http://ofps.oreilly.com/titles/9781449302641/load_and_store_funcs.html, 我没有看到任何使用新LoadFunc APis的示例.任何人都可以告诉我在哪里可以找到编写Load UDF的示例?

hadoop apache-pig hdfs

2
推荐指数
1
解决办法
2454
查看次数

标签 统计

hadoop ×5

hdfs ×5

apache-pig ×4

storage ×1