我有一个用hadoop mapreduce分析的csv文件.我想知道hadoop是否会逐行解析它?如果是的话,我想使用逗号分隔字符串来获取想要分析的字段.还是有其他更好的方法来解析csv并将其提供给hadoop?该文件是10 GB,逗号分隔.我想用hadoop使用java.下面的map()方法中Tex类型的参数"value"包含Map/Reduce解析的每一行? - 这是我最困惑的地方.
这是我的代码:
public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
try {
String[] tokens = value.toString().split(",");
String crimeType = tokens[5].trim();
int year = Integer.parseInt(tokens[17].trim());
context.write(crimeType, year);
} catch (Exception e) {...}
}
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
17691 次 |
| 最近记录: |