记录主动泄漏在Hadoop猪?

Nav*_*eet 4 hadoop join apache-pig

我是Hadoop的新手,并对我的猪脚本中的命令行消息感到好奇.

Total records written : 7676
Total bytes written : 341396
Spillable Memory Manager spill count : 103
Total bags proactively spilled: 39
Total records proactively spilled: 32389322
Run Code Online (Sandbox Code Playgroud)

最终结果表明是"成功!".我还不确定.这些数字上面的含义是什么?

谢谢.

Lor*_*dig 5

前两个显示MR作业写入HDFS的总记录/字节数.
可能会发生,在MR作业期间,并非所有记录都适合记忆.溢出计数器指示已将多少条记录写入数据节点的本地磁盘,以避免内存不足.

Pig使用两种方法来控制内存使用情况,并在必要时进行溢出:

1.可 填充内存管理器:

这就像是一个可以注册溢出袋的中心位置.如果内存不足,这位经理会查看已注册行李的清单并执行GC.


2.主动(自我)溢出:

如果达到内存限制,行李也会自行泄漏(参见参考资料pig.cachedbag.memusage)


回到您的统计数据:

  • 积极散布的行李总数:已经溢出的行李数量
  • 主动泄漏的总记录:这些行李中的记录数

检查工作的泄漏统计数据总是很好,因为大量溢出可能表明需要避免的巨大性能损失.