小编K R*_*ael的帖子

有没有办法在地图中跳过/抛出/忽略Spark中的记录？

我们有一个非常标准的Spark作业,它从s3读取日志文件,然后对它们进行一些处理.非常基本的Spark东西......

val logs = sc.textFile(somePathTos3)
val mappedRows = logs.map(log => OurRowObject.parseLog(log.split("\t")))
val validRows = mappedRows.filter(log => log._1._1 != "ERROR")
...and continue processing

Run Code Online (Sandbox Code Playgroud)

在哪里OurRowObject.parseLine获取原始日志行并将其映射到某个(键,值)对(例如( (1,2,3,4), (5,6,7) ),我们可以进行处理.现在,如果parseLine遇到"问题"日志(格式错误,空白等等),它将返回一些sentinel值(例如( ("ERROR", ...), (...) ),过滤器步骤然后过滤掉.

现在,我一直试图找到的方法是在地图中简单地不包括问题行...某种方式告诉火花"嘿这是一个空/畸形的行,跳过它并且不要' t包括一对",而不是那个额外的过滤步骤.

我还没有找到办法做到这一点,并发现这个功能不存在(AFAICanFind)非常有趣.

谢谢

scala apache-spark

K R*_*ael

2014 11-06

11
推荐指数

2
解决办法

7683
查看次数