我有一个文本文件,我想加载到我的猪引擎,文本文件中的名称在单独的行中,数据,但有错误...特殊字符....像这样的东西:
Ja@@$s000on
J@@a%^ke
T!!ina
Mel@ani
Run Code Online (Sandbox Code Playgroud)
我想使用REGEX从所有名称中删除特殊字符....我发现在猪中完成工作的一种方式,最后输出为......
Jason
Jake
Tina
Melani
Run Code Online (Sandbox Code Playgroud)
有人可以告诉我将在Pig工作的正则表达式.同时编写将执行此操作的命令,因为我无法使用REGEX_EXTRACT和REGEX_EXTRACT_ALL函数.
还有人可以解释在定义正则表达式之后我们传递给此函数作为参数的数字1的意义是什么.
任何帮助将受到高度赞赏.
我正在浏览Hadoop-权威指南,我遇到了这些问题:
规范化给MapReduce带来了问题,因为它使得读取记录成为非本地操作,而MapReduce的一个主要假设是可以执行(高速)流读取和写入.
有人可以解释这些线条在外行语言中的实际含义吗?
我知道什么是规范化.它是如何使读取记录成为非本地操作的?参考hadoop的非本地操作是什么意思?