小编ami*_*itk的帖子

不是一个Parquet文件。尾部的预期魔术数[80,65,82,49],但发现[110,111,13,10]

所以我试图加载推断自定义模式的csv文件,但是每次我遇到以下错误时:

不是一个Parquet文件。尾部的预期魔术数[80,65,82,49],但发现[110,111,13,10]

这就是我的程序和csv文件条目的样子,

年龄;工作;婚姻;教育;默认;平衡;住房;贷款;联系方式;天;月;任期;活动;周日;以前;结果; y 58;管理;已婚;三级;否; 2143;是;否;未知; 5; may; 261; 1; -1; 0;未知;否44;技术员;单身;中学;否; 29;是;否;未知; 5;可能; 151; 1; -1; 0;未知;否; 33;企业家;已婚;中学;否; 2;是;是;未知; 5;可能; 76; 1; -1; 0;未知;否

我的代码:

$ spark-shell --packages com.databricks:spark-csv_2.10:1.5.0

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import org.apache.spark.sql.types._
import org.apache.spark.sql.SQLContext   
import sqlContext.implicits._    
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType}

val bankSchema = StructType(Array(
  StructField("age", IntegerType, true),
  StructField("job", StringType, true),
  StructField("marital", StringType, true),
  StructField("education", StringType, true),
  StructField("default", StringType, true),
  StructField("balance", IntegerType, true),
  StructField("housing", StringType, true),
  StructField("loan", StringType, true),
  StructField("contact", StringType, true), …
Run Code Online (Sandbox Code Playgroud)

mysql csv apache-spark parquet spark-shell

6
推荐指数
1
解决办法
6476
查看次数

标签 统计

apache-spark ×1

csv ×1

mysql ×1

parquet ×1

spark-shell ×1