不是一个Parquet文件。尾部的预期魔术数[80，65，82，49]，但发现[110，111，13，10]

所以我试图加载推断自定义模式的csv文件，但是每次我遇到以下错误时：

不是一个Parquet文件。尾部的预期魔术数[80，65，82，49]，但发现[110，111，13，10]

这就是我的程序和csv文件条目的样子，

年龄;工作;婚姻;教育;默认;平衡;住房;贷款;联系方式;天;月;任期;活动;周日;以前;结果; y 58;管理;已婚;三级;否; 2143;是;否;未知; 5; may; 261; 1; -1; 0;未知;否44;技术员;单身;中学;否; 29;是;否;未知; 5;可能; 151; 1; -1; 0;未知;否; 33;企业家;已婚;中学;否; 2;是;是;未知; 5;可能; 76; 1; -1; 0;未知;否

我的代码：

$ spark-shell --packages com.databricks：spark-csv_2.10：1.5.0

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import org.apache.spark.sql.types._
import org.apache.spark.sql.SQLContext   
import sqlContext.implicits._    
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType}

val bankSchema = StructType(Array(
  StructField("age", IntegerType, true),
  StructField("job", StringType, true),
  StructField("marital", StringType, true),
  StructField("education", StringType, true),
  StructField("default", StringType, true),
  StructField("balance", IntegerType, true),
  StructField("housing", StringType, true),
  StructField("loan", StringType, true),
  StructField("contact", StringType, true), …

Run Code Online (Sandbox Code Playgroud)

mysql csv apache-spark parquet spark-shell

ami*_*itk

2018 09-06

6
推荐指数

1
解决办法

6476
查看次数