use*_*736 2 hadoop hive mapreduce
如何编写map reduce代码
因为hive ql需要很长时间.对于1 GB的数据,它需要将近10分钟.
如何组合和洗牌在内部工作?
1)您应该开始使用EXPLAIN或EXPLAIN EXTENDED命令,该命令显示Hive如何将查询转换为Mapreduce作业.
Hive主要为以下操作启动MapReduce作业
数据过滤,数据聚合(最小值,最大值,平均值),连接/产品和表的交集,排序等您首先要学习如何在MapReduce中实现上述算法/模式.
2)我建议你阅读使用Map-Reduce的Join Algorithm这本书,以便更好地理解如何使用MapR连接数据集.Hive遵循相同的模式来连接表(数据集).
3)Combiner,Shuffle和sort阅读"Oreilly Hadoop The Definitive Guide Tom White-第6章"一书
| 归档时间: |
|
| 查看次数: |
1198 次 |
| 最近记录: |