我们可以从 Databricks Autoloader 中排除或仅包含特定文件扩展名吗?

Kes*_*wal 2 databricks databricks-autoloader

现在,databricks 自动加载器需要一个从中加载所有文件的目录路径。但是,如果某些其他类型的日志文件也开始进入该目录 - 有没有办法要求 Autoloader 在准备数据帧时排除这些文件?

df = spark.readStream.format("cloudFiles") \
  .option(<cloudFiles-option>, <option-value>) \
  .schema(<schema>) \
  .load(<input-path>)
Run Code Online (Sandbox Code Playgroud)

Ale*_*Ott 5

自动加载器支持 glob 字符串的规范<input-path>- 来自文档

<input-path>可以包含文件 glob 模式

Glob 语法支持不同的选项,例如*任何字符等。因此您可以指定input-path为,path/*.json例如。您也可以排除文件,但与包含模式相比,构建该模式可能会稍微复杂一些,但它仍然是可能的 - 例如,应该排除具有扩展名的*.[^l][^o][^g]文件.log