Jul*_*ayi 2 python apache-spark-sql pyspark databricks azure-databricks
我在网上搜索了一下,网上提供的解决方案并没有解决我的问题。我正在尝试读取分层目录下的镶木地板文件。我收到以下错误。
'无法推断 Parquet 的架构。必须手动指定。;'
我的目录结构如下: dbfs:/mnt/sales/region/country/2020/08/04
年文件夹下将有多个月份子目录,月份文件夹下将有后续的子目录。
我只想在销售级别阅读它们,这应该为我提供所有区域的信息,并且我已经尝试了以下两个代码,但它们都不起作用。请在这件事上给予我帮助。
spark.read.parquet("dbfs:/mnt/sales/*")
Run Code Online (Sandbox Code Playgroud)
或者
spark.read.parquet("dbfs:/mnt/sales/")
Run Code Online (Sandbox Code Playgroud)
你可以尝试这个选项吗?
df = spark.read.option("header","true").option("recursiveFileLookup","true").parquet("/path/to/root/")
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
19544 次 |
| 最近记录: |