我有一个文本文件,我想加载到我的猪引擎,文本文件中的名称在单独的行中,数据,但有错误...特殊字符....像这样的东西:
Ja@@$s000on
J@@a%^ke
T!!ina
Mel@ani
Run Code Online (Sandbox Code Playgroud)
我想使用REGEX从所有名称中删除特殊字符....我发现在猪中完成工作的一种方式,最后输出为......
Jason
Jake
Tina
Melani
Run Code Online (Sandbox Code Playgroud)
有人可以告诉我将在Pig工作的正则表达式.同时编写将执行此操作的命令,因为我无法使用REGEX_EXTRACT和REGEX_EXTRACT_ALL函数.
还有人可以解释在定义正则表达式之后我们传递给此函数作为参数的数字1的意义是什么.
任何帮助将受到高度赞赏.
您可以将REPLACE与RegEx一起使用来解决此问题.
input.txt
Ja@@$s000on
J@@a%^ke T!!ina Mel@ani
PigScript:
A = LOAD 'input.txt' as line;
B = FOREACH A GENERATE REPLACE(line,'([^a-zA-Z\\s]+)','');
dump B;
Output:
(Jason)
(Jake Tina Melani)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
6041 次 |
| 最近记录: |