相关疑难解决方法(0)

Spark RDD - 使用额外参数进行映射

是否可以将额外的参数传递给pySpark中的映射函数?具体来说,我有以下代码配方:

raw_data_rdd = sc.textFile("data.json", use_unicode=True)
json_data_rdd = raw_data_rdd.map(lambda line: json.loads(line))
mapped_rdd = json_data_rdd.flatMap(processDataLine)
Run Code Online (Sandbox Code Playgroud)

processDataLine除了JSON对象之外,该函数还需要额外的参数,如下所示:

def processDataLine(dataline, arg1, arg2)
Run Code Online (Sandbox Code Playgroud)

如何传递额外的参数arg1,并arg2flaMap功能?

python apache-spark rdd pyspark

28
推荐指数
1
解决办法
2万
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1

rdd ×1