如何为hive查询编写mapreduce代码

Question

如何编写map reduce代码

因为hive ql需要很长时间.对于1 GB的数据,它需要将近10分钟.

如何组合和洗牌在内部工作？

Answer 1

1)您应该开始使用EXPLAIN或EXPLAIN EXTENDED命令,该命令显示Hive如何将查询转换为Mapreduce作业.

Hive主要为以下操作启动MapReduce作业

数据过滤,数据聚合(最小值,最大值,平均值),连接/产品和表的交集,排序等您首先要学习如何在MapReduce中实现上述算法/模式.

2)我建议你阅读使用Map-Reduce的Join Algorithm这本书,以便更好地理解如何使用MapR连接数据集.Hive遵循相同的模式来连接表(数据集).

3)Combiner,Shuffle和sort阅读"Oreilly Hadoop The Definitive Guide Tom White-第6章"一书