RDD 示例

>>> rdd4.take(3)
[[(u'11394071', 1), (u'11052103', 1), (u'11052101', 1)], [(u'11847272', 10), (u'999999', 1), (u'11847272', 10)], [(u'af1lowprm1704', 5), (u'am1prm17', 2), (u'af1highprm1704', 2)]]

Run Code Online (Sandbox Code Playgroud)

尝试过/没有用

rdd4.distinct().keys()
rdd4.map(lambda x: tuple(sorted(x))).keys().distinct()

[(u'10972402', 1), (u'10716707', 1), (u'11165362', 1)]

Run Code Online (Sandbox Code Playgroud)

首选结构

[u'11394071', u'11052101', '999999', u'11847272', u'am1prm17', u'af1highprm1704']

Run Code Online (Sandbox Code Playgroud)

python apache-spark rdd pyspark

And*_*dre

lucky-day

2
推荐指数

1
解决办法

1万
查看次数

使用索引器和编码器时 PySpark 管道错误

我正在使用来自 UCI的银行数据来模板化一个项目。我正在他们的文档站点上关注 PySpark 教程（抱歉，找不到链接了）。在管道中运行时，我不断收到错误消息。我已经加载了数据，转换了特征类型，并完成了分类和数字特征的流水线操作。我希望对代码的任何部分提供任何反馈，但特别是在我收到错误的地方，以便我可以继续进行此构建。先感谢您！

样本数据

+---+---+----------+-------+---------+-------+-------+-------+----+-------+---+-----+--------+--------+-----+--------+--------+-------+
| id|age|       job|marital|education|default|balance|housing|loan|contact|day|month|duration|campaign|pdays|previous|poutcome|deposit|
+---+---+----------+-------+---------+-------+-------+-------+----+-------+---+-----+--------+--------+-----+--------+--------+-------+
|  1| 59|    admin.|married|secondary|     no|   2343|    yes|  no|unknown|  5|  may|    1042|       1|   -1|       0| unknown|    yes|
|  2| 56|    admin.|married|secondary|     no|     45|     no|  no|unknown|  5|  may|    1467|       1|   -1|       0| unknown|    yes|
|  3| 41|technician|married|secondary|     no|   1270|    yes|  no|unknown|  5|  may|    1389|       1|   -1|       0| unknown|    yes|
|  4| 55|  services|married|secondary|     no|   2476|    yes|  no|unknown|  5|  may|     579|       1|   -1|       0| unknown|    yes|
|  5| 54| …

Run Code Online (Sandbox Code Playgroud)

python pipeline apache-spark pyspark apache-spark-ml

And*_*dre

2019 06-17

2
推荐指数

1
解决办法

1958
查看次数