小编use*_*076的帖子

使用spark-csv编写单个CSV文件

我正在使用https://github.com/databricks/spark-csv,我正在尝试编写单个CSV,但不能,它正在创建一个文件夹.

需要一个Scala函数,它将获取路径和文件名等参数并写入该CSV文件.

csv scala apache-spark spark-csv

92
推荐指数
8
解决办法
17万
查看次数

如何使用指定的架构创建空DataFrame?

我想DataFrame在Scala中使用指定的模式创建.我曾尝试使用JSON读取(我的意思是读取空文件),但我认为这不是最好的做法.

scala dataframe apache-spark apache-spark-sql

79
推荐指数
3
解决办法
12万
查看次数

如何将数据框拆分为具有相同列值的数据框?

使用Scala,我如何将dataFrame拆分为具有相同列值的多个dataFrame(无论是数组还是集合).例如,我想拆分以下DataFrame:

ID  Rate    State
1   24  AL
2   35  MN
3   46  FL
4   34  AL
5   78  MN
6   99  FL
Run Code Online (Sandbox Code Playgroud)

至:

数据集1

ID  Rate    State
1   24  AL  
4   34  AL
Run Code Online (Sandbox Code Playgroud)

数据集2

ID  Rate    State
2   35  MN
5   78  MN
Run Code Online (Sandbox Code Playgroud)

数据集3

ID  Rate    State
3   46  FL
6   99  FL
Run Code Online (Sandbox Code Playgroud)

scala dataframe apache-spark apache-spark-sql

16
推荐指数
1
解决办法
2万
查看次数

SPARK:失败:"联盟"预期但是'('找到了

我有一个名为df的数据框,名为employee_id.我在做:

 df.registerTempTable("d_f")
val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f"""
val result = Spark.getSqlContext().sql(query)
Run Code Online (Sandbox Code Playgroud)

但是得到以下问题.有帮助吗?

[1.29] failure: ``union'' expected but `(' found
SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f
                            ^
java.lang.RuntimeException: [1.29] failure: ``union'' expected but `(' found
SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f
Run Code Online (Sandbox Code Playgroud)

sql scala dataframe apache-spark apache-spark-sql

10
推荐指数
1
解决办法
1万
查看次数

标签 统计

apache-spark ×4

scala ×4

apache-spark-sql ×3

dataframe ×3

csv ×1

spark-csv ×1

sql ×1