Rav*_*krn 0 scala apache-spark apache-spark-sql
我有两个文件 data.csv 和 headers.csv。我想在 Spark/Scala 中创建带有标题的数据框。
var data = spark.sqlContext.read.format(
"com.databricks.spark.csv").option("header", "true"
).option("inferSchema", "true").load(data_path)
Run Code Online (Sandbox Code Playgroud)
你能帮我自定义上面的行来做到这一点吗?
您可以headers.csv使用上述方法阅读并使用schema标题dataframe阅读data.csv以下内容
val headersDF = sqlContext
.read
.format("com.databricks.spark.csv")
.option("header", "true")
.load("path to headers.csv")
val schema = headersDF.schema
val dataDF = sqlContext
.read
.format("com.databricks.spark.csv")
.schema(schema)
.load("path to data.csv")
Run Code Online (Sandbox Code Playgroud)
我希望答案有帮助
| 归档时间: |
|
| 查看次数: |
1746 次 |
| 最近记录: |