我确定这很简单,但我一直有问题。我有一个带有键值对的 RDD。我想要一个仅包含键的不同列表。我将分享代码和示例。先感谢您!
>>> rdd4.take(3)
[[(u'11394071', 1), (u'11052103', 1), (u'11052101', 1)], [(u'11847272', 10), (u'999999', 1), (u'11847272', 10)], [(u'af1lowprm1704', 5), (u'am1prm17', 2), (u'af1highprm1704', 2)]]
Run Code Online (Sandbox Code Playgroud)
rdd4.distinct().keys()
rdd4.map(lambda x: tuple(sorted(x))).keys().distinct()
[(u'10972402', 1), (u'10716707', 1), (u'11165362', 1)]
Run Code Online (Sandbox Code Playgroud)
[u'11394071', u'11052101', '999999', u'11847272', u'am1prm17', u'af1highprm1704']
Run Code Online (Sandbox Code Playgroud) 我正在使用来自 UCI的银行数据来模板化一个项目。我正在他们的文档站点上关注 PySpark 教程(抱歉,找不到链接了)。在管道中运行时,我不断收到错误消息。我已经加载了数据,转换了特征类型,并完成了分类和数字特征的流水线操作。我希望对代码的任何部分提供任何反馈,但特别是在我收到错误的地方,以便我可以继续进行此构建。先感谢您!
+---+---+----------+-------+---------+-------+-------+-------+----+-------+---+-----+--------+--------+-----+--------+--------+-------+
| id|age| job|marital|education|default|balance|housing|loan|contact|day|month|duration|campaign|pdays|previous|poutcome|deposit|
+---+---+----------+-------+---------+-------+-------+-------+----+-------+---+-----+--------+--------+-----+--------+--------+-------+
| 1| 59| admin.|married|secondary| no| 2343| yes| no|unknown| 5| may| 1042| 1| -1| 0| unknown| yes|
| 2| 56| admin.|married|secondary| no| 45| no| no|unknown| 5| may| 1467| 1| -1| 0| unknown| yes|
| 3| 41|technician|married|secondary| no| 1270| yes| no|unknown| 5| may| 1389| 1| -1| 0| unknown| yes|
| 4| 55| services|married|secondary| no| 2476| yes| no|unknown| 5| may| 579| 1| -1| 0| unknown| yes|
| 5| 54| …Run Code Online (Sandbox Code Playgroud)