小编use*_*076的帖子

使用spark-csv编写单个CSV文件

我正在使用https://github.com/databricks/spark-csv,我正在尝试编写单个CSV,但不能,它正在创建一个文件夹.

需要一个Scala函数,它将获取路径和文件名等参数并写入该CSV文件.

csv scala apache-spark spark-csv

use*_*076

2018 01-13

92
推荐指数

8
解决办法

17万
查看次数

如何使用指定的架构创建空DataFrame？

我想DataFrame在Scala中使用指定的模式创建.我曾尝试使用JSON读取(我的意思是读取空文件),但我认为这不是最好的做法.

scala dataframe apache-spark apache-spark-sql

use*_*076

2018 06-17

79
推荐指数

3
解决办法

12万
查看次数

如何将数据框拆分为具有相同列值的数据框？

使用Scala,我如何将dataFrame拆分为具有相同列值的多个dataFrame(无论是数组还是集合).例如,我想拆分以下DataFrame:

ID  Rate    State
1   24  AL
2   35  MN
3   46  FL
4   34  AL
5   78  MN
6   99  FL

Run Code Online (Sandbox Code Playgroud)

至:

数据集1

ID  Rate    State
1   24  AL  
4   34  AL

Run Code Online (Sandbox Code Playgroud)

数据集2

ID  Rate    State
2   35  MN
5   78  MN

Run Code Online (Sandbox Code Playgroud)

数据集3

ID  Rate    State
3   46  FL
6   99  FL

Run Code Online (Sandbox Code Playgroud)

scala dataframe apache-spark apache-spark-sql

use*_*076

2018 01-02

16
推荐指数

1
解决办法

2万
查看次数

SPARK:失败:"联盟"预期但是'('找到了

我有一个名为df的数据框,名为employee_id.我在做:

 df.registerTempTable("d_f")
val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f"""
val result = Spark.getSqlContext().sql(query)

Run Code Online (Sandbox Code Playgroud)

但是得到以下问题.有帮助吗？

[1.29] failure: ``union'' expected but `(' found
SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f
                            ^
java.lang.RuntimeException: [1.29] failure: ``union'' expected but `(' found
SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f

Run Code Online (Sandbox Code Playgroud)

sql scala dataframe apache-spark apache-spark-sql

use*_*076

2015 08-03

10
推荐指数

1
解决办法

1万
查看次数