Rom*_*ler 4 python numpy apache-spark apache-spark-sql pyspark
使用 PySpark 时,代码如下:
from pyspark.sql.types import *
samples = np.array([0.1,0.2])
dfSchema = StructType([StructField("x", FloatType(), True)])
spark.createDataFrame(samples,dfSchema)
Run Code Online (Sandbox Code Playgroud)
我得到:
TypeError: StructType 无法接受类型 'numpy.float64'> 中的对象 0.10000000000000001
任何想法?
NumPy 类型(包括numpy.float64)不是 Spark SQL 类型的有效外部表示。此外,您使用的模式并不反映数据的形状。
你应该使用标准的Python类型,并DataType直接对应:
spark.createDataFrame(samples.tolist(), FloatType()).toDF("x")
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
13570 次 |
| 最近记录: |