我该如何调试猪脚本

Man*_*ish 5 hadoop apache-pig bigdata

如果在猪的脚本中运行一个简单的组来获取大数TB的数据,那么脚本就会停留在70%,那么可以采取哪些措施来诊断问题呢?

San*_*ngh 11

调试pig脚本有几种方法.简单的方法是逐步执行关系,然后验证结果.这些命令对调试pig脚本很有用.

DUMP - 使用DUMP运算符运行(执行)Pig Latin语句并将结果显示在屏幕上.

ILLUSTRATE - 使用ILLUSTRATE运算符来查看数据如何通过一系列Pig Latin语句进行转换.ILLUSTRATE允许您在小型数据集上测试程序并缩短周转时间.

EXPLAIN - 使用EXPLAIN运算符查看用于计算指定关系的逻辑,物理和映射减少执行计划.

DESCRIBE - 使用DESCRIBE运算符查看关系的模式.您可以查看外部关系以及嵌套FOREACH语句中定义的关系.

有关这些命令的更多详细信息,请参见此链接.另请参阅开发和测试猪脚本.了解更多细节.

如果要在执行期间调试整个脚本,则需要在脚本顶部编写下面的代码

-- set the debug mode on 
SET debug 'on'
-- set a job name of your job.
SET job.name 'my job'
Run Code Online (Sandbox Code Playgroud)

这将允许您的脚本运行到调试模式.有关SET命令的模式详细信息,请参见此链接