将行转换为pyspark中的列表RDD

Question

将行转换为pyspark中的列表RDD

我有一个清单

[Row(_1=u'5', _2=u'6')]

Run Code Online (Sandbox Code Playgroud)

我想将其转换为

[(5,6)]

Run Code Online (Sandbox Code Playgroud)

使用PySpark

Answer 1

tit*_*o89 5

如果您的[Row（_1 = u'5'，_2 = u'6'）]是您rdd中的一行：

from pyspark.sql import Row

a = [Row(_1=u'5', _2=u'6')]
rdd = sc.parallelize(a) 
print rdd.take(1)
# >>> [Row(_1=u'5', _2=u'6')]

b = rdd.map(lambda line: tuple([int(x) for x in line]))
print b.take(3)
# >>> [(5, 6)]

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，4 月前
查看次数：	11580 次
最近记录：	7 年，6 月前