小编DAE*_*DAE的帖子

在Spark中组合Row()

看似简单的问题,却找不到答案.

问题:我创建了一个函数,我将传递给map(),它接受一个字段并从中创建三个字段.我希望map()的输出给我一个新的RDD,包括输入RDD和新/输出RDD的字段.我该怎么做呢？

我是否需要将我的数据键添加到函数的输出中,以便我可以将更多输出RDD加入到我原来的RDD中？这是正确的/最佳做法吗？

def extract_fund_code_from_iv_id(holding):
    # Must include key of data for later joining
    iv_id = Row(iv_id_fund_code=holding.iv_id[:2], iv_id_last_code=holding.iv_id[-2:])
    return iv_id

Run Code Online (Sandbox Code Playgroud)

更基本的,我似乎无法结合两个Row.

row1 = Row(name="joe", age="35")
row2 = Row(state="MA")
print row1, row2

Run Code Online (Sandbox Code Playgroud)

这不会像我想要的那样返回一个新的Row().

谢谢

apache-spark-sql pyspark

DAE*_*DAE

lucky-day

0
推荐指数

1
解决办法

2694
查看次数

标签统计

apache-spark-sql ×1

pyspark ×1

在Spark中组合Row()

标签 统计

小编DAE_DAE的帖子

标签统计