我将一些CSV文件读入了熊猫,对其进行了很好的预处理,并将dtypes设置为float,int,category的所需值。但是,当尝试将其导入spark时,出现以下错误:
Can not merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.StringType'>
Run Code Online (Sandbox Code Playgroud)
尝试跟踪一段时间后,我发现了一些麻烦的来源->请参阅CSV文件:
"myColumns"
""
"A"
Run Code Online (Sandbox Code Playgroud)
冲入大熊猫像: small = pd.read_csv(os.path.expanduser('myCsv.csv'))
并无法导入以引发:
sparkDF = spark.createDataFrame(small)
Run Code Online (Sandbox Code Playgroud)
目前我使用Spark 2.0.0