小编skr*_*nce的帖子

从 Databricks 中的 dbutils.fs.ls 输出创建数据框

所以,我是一个初学者,正在 Databricks 上学习 Spark 编程 (pyspark) -

我想做什么?

列出目录中的所有文件并将其保存到数据框中,以便我能够在此文件列表上应用过滤、排序等。为什么 ?因为我试图找到目录中最大的文件。

为什么下面不起作用? 我缺少什么?

from pyspark.sql.types import StringType

sklist = dbutils.fs.ls(sourceFile)

df = spark.createDataFrame(sklist,StringType())
Run Code Online (Sandbox Code Playgroud)

python apache-commons-dbutils pyspark databricks

3
推荐指数
2
解决办法
1万
查看次数