正确加载猪的日期时间

rcj*_*rcj 5 hadoop apache-pig

我正在加载一个带有datetime列和长列的tsv文件:

A = LOAD 'tweets-clean.txt' USING PigStorage('\t') AS (date:datetime, userid:long);
DUMP A;
Run Code Online (Sandbox Code Playgroud)

一个示例输入行:

Tue Feb 11 05:02:10 +0000 2014  205291417
Run Code Online (Sandbox Code Playgroud)

那条输出线:

, 205291417
Run Code Online (Sandbox Code Playgroud)

我该怎么做呢?

Ada*_*ook 12

你想要加载日期为chararray(日期:chararray),然后可以将其转换到使用日期时间FOREACH GENERATE随着ToDate猪的内置功能.

格式字符串基于 SimpleDateFormat

A = LOAD 'tweets-clean.txt' USING PigStorage('\t') AS (date:chararray, userid:long);
B = FOREACH A GENERATE ToDate(date, '<some format string>') AS date, userid;
DUMP B;
Run Code Online (Sandbox Code Playgroud)