我正在使用https://github.com/databricks/spark-csv,我正在尝试编写单个CSV,但不能,它正在创建一个文件夹.
需要一个Scala函数,它将获取路径和文件名等参数并写入该CSV文件.
我想DataFrame在Scala中使用指定的模式创建.我曾尝试使用JSON读取(我的意思是读取空文件),但我认为这不是最好的做法.
使用Scala,我如何将dataFrame拆分为具有相同列值的多个dataFrame(无论是数组还是集合).例如,我想拆分以下DataFrame:
ID Rate State
1 24 AL
2 35 MN
3 46 FL
4 34 AL
5 78 MN
6 99 FL
Run Code Online (Sandbox Code Playgroud)
至:
数据集1
ID Rate State
1 24 AL
4 34 AL
Run Code Online (Sandbox Code Playgroud)
数据集2
ID Rate State
2 35 MN
5 78 MN
Run Code Online (Sandbox Code Playgroud)
数据集3
ID Rate State
3 46 FL
6 99 FL
Run Code Online (Sandbox Code Playgroud) 我有一个名为df的数据框,名为employee_id.我在做:
df.registerTempTable("d_f")
val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f"""
val result = Spark.getSqlContext().sql(query)
Run Code Online (Sandbox Code Playgroud)
但是得到以下问题.有帮助吗?
[1.29] failure: ``union'' expected but `(' found
SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f
^
java.lang.RuntimeException: [1.29] failure: ``union'' expected but `(' found
SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f
Run Code Online (Sandbox Code Playgroud)