小编oha*_*arr的帖子

将数据帧结果值保存到字符串变量?

当找到我想将其保存到变量的最大日期时,我在 spark 中创建了一个数据框。只是想弄清楚如何获得结果,这是一个字符串,并将其保存到一个变量中。

到目前为止的代码:

sqlDF = spark.sql("SELECT MAX(date) FROM account")
sqlDF.show()
Run Code Online (Sandbox Code Playgroud)

结果是什么样的:

+--------------------+
| max(date)|
+--------------------+
|2018-04-19T14:11:...|
+--------------------+
Run Code Online (Sandbox Code Playgroud)

谢谢

python dataframe spark-dataframe pyspark-sql databricks

5
推荐指数
2
解决办法
1万
查看次数

将较大的 json 文件拆分为较小的文件

我有一个 2.37 GB 的 json 文件,包含大约 210 万条记录。我想使用 jq 来遍历文件并每 100000 条记录创建一个新文件。

IE

部分1.json 部分2.json 部分3.json 部分4.json 部分5.json 等

有人用jq做过这个吗?

json jq

3
推荐指数
1
解决办法
1844
查看次数

标签 统计

databricks ×1

dataframe ×1

jq ×1

json ×1

pyspark-sql ×1

python ×1

spark-dataframe ×1