小编Lea*_*rrr的帖子

“skip.header.line.count”=“1”在 SparkSession 的 Hive 中不起作用

我正在尝试使用 SparkSession 将 CSV 数据加载到 Hive 表中。我想在加载到配置单元表时跳过标题数据，并且设置 tblproperties("skip.header.line.count"="1") 也不起作用。

我正在使用以下代码。

import java.io.File

import org.apache.spark.sql.{SparkSession,Row,SaveMode}

case class Record(key: Int, value: String)

val warehouseLocation=new File("spark-warehouse").getAbsolutePath

val spark=SparkSession.builder().appName("Apache Spark Book Crossing Analysis").config("spark.sql.warehouse.dir",warehouseLocation).enableHiveSupport().getOrCreate()

import spark.implicits._
import spark.sql
//sql("set hive.vectorized.execution.enabled=false")
sql("drop table if exists BookTemp")
sql ("create table BookTemp(ISBN int,BookTitle String,BookAuthor String ,YearOfPublication int,Publisher String,ImageURLS String,ImageURLM String,ImageURLL String)row format delimited fields terminated by ';' ")
sql("alter table BookTemp set TBLPROPERTIES("skip.header.line.count"="1")")
 sql("load data local inpath 'BX-Books.csv'  into table BookTemp")
 sql("select * from BookTemp limit 5").show

Run Code Online (Sandbox Code Playgroud)

控制台错误： …

csv hive scala apache-spark

Lea*_*rrr

2019 09-25

7
推荐指数

1
解决办法

5597
查看次数