如何避免Hadoop PIG和Hive中的不良记录？

Question

如何避免Hadoop PIG和Hive中的不良记录？

嗨，我是Hadoop的新手，我发现可以使用SkipBadRecord类在Java映射中减少任何输入格式的不良记录，所以我只想知道Pig和Hive都可行吗？

Answer 1

Hive中的不良记录处理

要过滤配置单元中的不良记录，可以在查询中启用跳过模式。跳过模式的配置单元配置为：

SET mapred.skip.mode.enabled = true;

Run Code Online (Sandbox Code Playgroud)

在配置单元查询之前，需要设置以上命令。您还可以通过提供以下参数来限制配置：

SET mapred.map.max.attempts = 100; 
SET mapred.reduce.max.attempts = 100;
SET mapred.skip.map.max.skip.records = 30000;
SET mapred.skip.attempts.to.start.skipping = 1

Run Code Online (Sandbox Code Playgroud)

有关此的更多详细信息，请参见此链接。

猪中的不良记录处理

Pig本身旨在处理不良记录。当处理千兆字节或TB级的数据时，至少有一行损坏或会导致意外结果的可能性不计其数。一个例子是除以零，即使没有记录被认为分母为零。导致整个工作失败一次失败的记录是不好的。为避免这些失败，Pig插入一个空值，发出警告，然后继续进行处理。这样，工作仍然完成。警告汇总并在最后报告为计数。您应该检查警告，以确保一些记录的失败在您的工作中是可以接受的。如果需要了解有关警告的更多详细信息，可以通过在命令行上传递-w来关闭聚合。

请参阅此有关猪有用的链接

归档时间：	10 年，9 月前
查看次数：	3597 次
最近记录：	7 年，10 月前