使用标题和数据文件创建带有标题的数据帧

Rav*_*krn 0 scala apache-spark apache-spark-sql

我有两个文件 data.csv 和 headers.csv。我想在 Spark/Scala 中创建带有标题的数据框。

var data = spark.sqlContext.read.format(
  "com.databricks.spark.csv").option("header", "true"
).option("inferSchema", "true").load(data_path) 
Run Code Online (Sandbox Code Playgroud)

你能帮我自定义上面的行来做到这一点吗?

Ram*_*jan 5

您可以headers.csv使用上述方法阅读并使用schema标题dataframe阅读data.csv以下内容

val headersDF = sqlContext
  .read
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .load("path to headers.csv")

val schema = headersDF.schema

val dataDF = sqlContext
  .read
  .format("com.databricks.spark.csv")
  .schema(schema)
  .load("path to data.csv")
Run Code Online (Sandbox Code Playgroud)

我希望答案有帮助

  • 很高兴听到这个:) 你也可以接受答案:) (2认同)