PySpark: TypeError: StructType 无法接受类型 <type 'numpy.float64'> 中的对象 0.10000000000000001

Question

PySpark: TypeError: StructType 无法接受类型 <type 'numpy.float64'> 中的对象 0.10000000000000001

Rom*_*ler 4 python numpy apache-spark apache-spark-sql pyspark

使用 PySpark 时，代码如下：

from pyspark.sql.types import *
samples = np.array([0.1,0.2])
dfSchema = StructType([StructField("x", FloatType(), True)])
spark.createDataFrame(samples,dfSchema)

Run Code Online (Sandbox Code Playgroud)

我得到：

TypeError: StructType 无法接受类型 'numpy.float64'> 中的对象 0.10000000000000001

任何想法？

Answer 1

zer*_*323 6

NumPy 类型（包括numpy.float64）不是 Spark SQL 类型的有效外部表示。此外，您使用的模式并不反映数据的形状。

你应该使用标准的Python类型，并DataType直接对应：

spark.createDataFrame(samples.tolist(), FloatType()).toDF("x")

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，3 月前
查看次数：	13570 次
最近记录：	8 年，3 月前

PySpark: TypeError: StructType 无法接受类型 &lt;type 'numpy.float64'&gt; 中的对象 0.10000000000000001

PySpark: TypeError: StructType 无法接受类型 <type 'numpy.float64'> 中的对象 0.10000000000000001