我想问一下,在使用Hadoop/MapReduce和Spark时,数据分区有什么显着差异吗?它们都在HDFS(TextInputFormat)上工作,所以它在理论上应该是相同的.
是否有任何数据分区程序可能不同的情况?任何见解对我的学习都非常有帮助.
谢谢
我正在使用pig latin进行大型XML转储.我试图获得猪拉丁语中的xml节点的值.该文件就像
<username> Shujaat </ username>
我想得到Shujaat的输入.我尝试了piggybank XMLLoader但它只分离了xml标签及其值.代码是
register piggybank.jar;
A = load 'username.xml' using org.apache.pig.piggybank.storage.XMLLoader('username')
as (x: chararray);
B = foreach A generate x;
Run Code Online (Sandbox Code Playgroud)
此代码也为我提供了用户名标签和值.我只需要价值观.知道怎么做吗?我发现了正则表达但不知道多少?谢谢