小编ant*_*nes的帖子

将 numpy 数组的 rdd 转换为 pyspark 数据帧

尝试将由 numpy 数组组成的 rdd 转换为 pyspark 中的数据帧时,出现以下错误:

下面是导致这个错误的一段代码,我什至不确定我能得到错误的实际位置,甚至阅读跟踪......

有谁知道如何绕过?

非常感谢 !

In [111]: rddUser.take(5)

Out[111]:

[array([u'1008798262000292538', u'1.0', u'0.0', ..., u'0.0', u'0.0', u'1.0'], 
       dtype='<U32'),
 array([u'102254941859441333', u'1.0', u'0.0', ..., u'0.0', u'0.0', u'1.0'], 
       dtype='<U32'),
 array([u'1035609083097069747', u'1.0', u'0.0', ..., u'0.0', u'0.0', u'1.0'], 
       dtype='<U32'),
 array([u'10363297284472000', u'1.0', u'0.0', ..., u'0.0', u'0.0', u'1.0'], 
       dtype='<U32'),
 array([u'1059178934871294116', u'1.0', u'0.0', ..., u'0.0', u'0.0', u'1.0'], 
       dtype='<U32')]
Run Code Online (Sandbox Code Playgroud)

那么麻烦来了:

In [110]: rddUser.toDF(schema=None).show()  

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-110-073037afd70e> in <module>()
----> 1 rddUser.toDF(schema=None).show()

     62         [Row(name=u'Alice', age=1)]
     63         """
---> 64         return …
Run Code Online (Sandbox Code Playgroud)

python numpy apache-spark rdd pyspark

5
推荐指数
1
解决办法
3508
查看次数

标签 统计

apache-spark ×1

numpy ×1

pyspark ×1

python ×1

rdd ×1