了解 Hive MR 输出

Pra*_*nda 2 hadoop hive mapreduce

当我运行 Hive 语句并启动相应的 MR 作业时,它通常具有如下行:

Stage-Stage-1:地图:33减少:131累积CPU:8006.47秒HDFS读取:1280804751 HDFS写入:279261996966成功

MapReduce CPU 总花费时间:0 天 2 小时 13 分 26 秒 470 毫秒

我对解释这句话有一些疑问。

  1. 数字 1280804751、279261996966 的单位是什么?字节?块?有什么方法可以将它们转换为人类可读的格式吗?
  2. “MapReduce CPU 总时间消耗”是什么意思?“累积CPU”是什么意思?

Jer*_*ard 5

  1. HDFS ReadHDFS Write以字节为单位。

  2. Cumulative CPU是该阶段 MapReduce 作业的所有任务的总 CPU 时间。Total MapReduce CPU Time Spent是查询所有阶段的总 CPU 时间。在您的示例中,只有一个阶段,因此两个值具有相同的持续时间。