相关疑难解决方法(0)

如何使用PIG加载文件夹中的每个文件?

我有一个每天创建的文件夹,它们都存储相同类型的信息.我想创建一个脚本,加载最新的10个,UNIONs,然后运行其他代码.由于pig已经有了ls方法,我想知道是否有一种简单的方法可以让我获得最后10个创建的文件,并使用相同的加载器和选项将它们全部加载到通用名称下.我猜它看起来像是这样的:

REGISTER /usr/local/lib/hadoop/hadoop-lzo-0.4.13.jar;
REGISTER /usr/local/lib/hadoop/elephant-bird-2.0.5.jar;
FOREACH file in some_path:
    file = LOAD 'file' 
    USING com.twitter.elephantbird.pig.load.LzoTokenizedLoader('\\t') 
    AS (i1, i2, i3);
Run Code Online (Sandbox Code Playgroud)

apache-pig

6
推荐指数
2
解决办法
7379
查看次数

标签 统计

apache-pig ×1