Nav*_*eet 4 hadoop join apache-pig
我是Hadoop的新手,并对我的猪脚本中的命令行消息感到好奇.
Total records written : 7676
Total bytes written : 341396
Spillable Memory Manager spill count : 103
Total bags proactively spilled: 39
Total records proactively spilled: 32389322
Run Code Online (Sandbox Code Playgroud)
最终结果表明是"成功!".我还不确定.这些数字上面的含义是什么?
谢谢.
前两个显示MR作业写入HDFS的总记录/字节数.
可能会发生,在MR作业期间,并非所有记录都适合记忆.溢出计数器指示已将多少条记录写入数据节点的本地磁盘,以避免内存不足.
Pig使用两种方法来控制内存使用情况,并在必要时进行溢出:
1.可 填充内存管理器:
这就像是一个可以注册溢出袋的中心位置.如果内存不足,这位经理会查看已注册行李的清单并执行GC.
2.主动(自我)溢出:
如果达到内存限制,行李也会自行泄漏(参见参考资料pig.cachedbag.memusage)
回到您的统计数据:
检查工作的泄漏统计数据总是很好,因为大量溢出可能表明需要避免的巨大性能损失.