小编And*_*dre的帖子

来自 RDD 的每个键的 PySpark 不同列表

我确定这很简单,但我一直有问题。我有一个带有键值对的 RDD。我想要一个仅包含键的不同列表。我将分享代码和示例。先感谢您!

RDD 示例

>>> rdd4.take(3)
[[(u'11394071', 1), (u'11052103', 1), (u'11052101', 1)], [(u'11847272', 10), (u'999999', 1), (u'11847272', 10)], [(u'af1lowprm1704', 5), (u'am1prm17', 2), (u'af1highprm1704', 2)]]
Run Code Online (Sandbox Code Playgroud)

尝试过/没有用

rdd4.distinct().keys()
rdd4.map(lambda x: tuple(sorted(x))).keys().distinct()

[(u'10972402', 1), (u'10716707', 1), (u'11165362', 1)]
Run Code Online (Sandbox Code Playgroud)

首选结构

[u'11394071', u'11052101', '999999', u'11847272', u'am1prm17', u'af1highprm1704']
Run Code Online (Sandbox Code Playgroud)

python apache-spark rdd pyspark

2
推荐指数
1
解决办法
1万
查看次数

使用索引器和编码器时 PySpark 管道错误

我正在使用来自 UCI银行数据来模板化一个项目。我正在他们的文档站点上关注 PySpark 教程(抱歉,找不到链接了)。在管道中运行时,我不断收到错误消息。我已经加载了数据,转换了特征类型,并完成了分类和数字特征的流水线操作。我希望对代码的任何部分提供任何反馈,但特别是在我收到错误的地方,以便我可以继续进行此构建。先感谢您!

样本数据

+---+---+----------+-------+---------+-------+-------+-------+----+-------+---+-----+--------+--------+-----+--------+--------+-------+
| id|age|       job|marital|education|default|balance|housing|loan|contact|day|month|duration|campaign|pdays|previous|poutcome|deposit|
+---+---+----------+-------+---------+-------+-------+-------+----+-------+---+-----+--------+--------+-----+--------+--------+-------+
|  1| 59|    admin.|married|secondary|     no|   2343|    yes|  no|unknown|  5|  may|    1042|       1|   -1|       0| unknown|    yes|
|  2| 56|    admin.|married|secondary|     no|     45|     no|  no|unknown|  5|  may|    1467|       1|   -1|       0| unknown|    yes|
|  3| 41|technician|married|secondary|     no|   1270|    yes|  no|unknown|  5|  may|    1389|       1|   -1|       0| unknown|    yes|
|  4| 55|  services|married|secondary|     no|   2476|    yes|  no|unknown|  5|  may|     579|       1|   -1|       0| unknown|    yes|
|  5| 54| …
Run Code Online (Sandbox Code Playgroud)

python pipeline apache-spark pyspark apache-spark-ml

2
推荐指数
1
解决办法
1958
查看次数

标签 统计

apache-spark ×2

pyspark ×2

python ×2

apache-spark-ml ×1

pipeline ×1

rdd ×1