小编ant*_*nes的帖子

将 numpy 数组的 rdd 转换为 pyspark 数据帧

尝试将由 numpy 数组组成的 rdd 转换为 pyspark 中的数据帧时，出现以下错误：

下面是导致这个错误的一段代码，我什至不确定我能得到错误的实际位置，甚至阅读跟踪......

有谁知道如何绕过？

非常感谢！

In [111]: rddUser.take(5)

Out[111]:

[array([u'1008798262000292538', u'1.0', u'0.0', ..., u'0.0', u'0.0', u'1.0'], 
       dtype='<U32'),
 array([u'102254941859441333', u'1.0', u'0.0', ..., u'0.0', u'0.0', u'1.0'], 
       dtype='<U32'),
 array([u'1035609083097069747', u'1.0', u'0.0', ..., u'0.0', u'0.0', u'1.0'], 
       dtype='<U32'),
 array([u'10363297284472000', u'1.0', u'0.0', ..., u'0.0', u'0.0', u'1.0'], 
       dtype='<U32'),
 array([u'1059178934871294116', u'1.0', u'0.0', ..., u'0.0', u'0.0', u'1.0'], 
       dtype='<U32')]

Run Code Online (Sandbox Code Playgroud)

那么麻烦来了：

In [110]: rddUser.toDF(schema=None).show()  

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-110-073037afd70e> in <module>()
----> 1 rddUser.toDF(schema=None).show()

     62         [Row(name=u'Alice', age=1)]
     63         """
---> 64         return …

Run Code Online (Sandbox Code Playgroud)

python numpy apache-spark rdd pyspark

ant*_*nes

2018 01-29

5
推荐指数

1
解决办法

3508
查看次数