所以,我是一个初学者,正在 Databricks 上学习 Spark 编程 (pyspark) -
我想做什么?
列出目录中的所有文件并将其保存到数据框中,以便我能够在此文件列表上应用过滤、排序等。为什么 ?因为我试图找到目录中最大的文件。
为什么下面不起作用? 我缺少什么?
from pyspark.sql.types import StringType
sklist = dbutils.fs.ls(sourceFile)
df = spark.createDataFrame(sklist,StringType())
Run Code Online (Sandbox Code Playgroud)