相关疑难解决方法(0)

读取熊猫数据框时出现pyspark类型错误

我将一些CSV文件读入了熊猫,对其进行了很好的预处理,并将dtypes设置为float,int,category的所需值。但是,当尝试将其导入spark时,出现以下错误:

Can not merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.StringType'>
Run Code Online (Sandbox Code Playgroud)

尝试跟踪一段时间后,我发现了一些麻烦的来源->请参阅CSV文件:

"myColumns"
""
"A"
Run Code Online (Sandbox Code Playgroud)

冲入大熊猫像: small = pd.read_csv(os.path.expanduser('myCsv.csv'))

并无法导入以引发:

sparkDF = spark.createDataFrame(small)
Run Code Online (Sandbox Code Playgroud)

目前我使用Spark 2.0.0

可能会影响多个列。我该如何解决这个问题?

在此处输入图片说明

python csv pandas apache-spark pyspark

2
推荐指数
1
解决办法
2006
查看次数

标签 统计

apache-spark ×1

csv ×1

pandas ×1

pyspark ×1

python ×1