胶履带排除模式

Question

胶履带排除模式

我有一个要尝试抓取和编目的目录的s3存储桶。格式是这样的，这里的SQL文件是DDL查询（CREATE TABLE匹配不同的数据文件的模式，它的语句），即data1，data2等等）

s3://my-bucket/somedata/20180101/data1/stuff.txt.gz
s3://my-bucket/somedata/20180101/data2/stuff.txt.gz
s3://my-bucket/somedata/20180101/data1.sql
s3://my-bucket/somedata/20180101/data2.sql  
s3://my-bucket/somedata/20180102/data1/stuff.txt.gz
s3://my-bucket/somedata/20180102/data2/stuff.txt.gz
...

Run Code Online (Sandbox Code Playgroud)

我只想编目data1，所以我试图在Glue Crawler中使用排除模式 -见下文-即*.sql和data2/*。

不幸的是，搜寻器仍在对的根路径内的所有内容进行分类s3://my-bucket/somedata/。我可以忍受data2编目；我最担心/讨厌这些sql文件。

任何人都具有排除模式的经验或能够指出这里出了什么问题？

Answer 1

小智 7

该*在排除模式不交叉的目录，但**整个目录确实跨度。

要排除所有.sql文件，可以使用：**.sql

您data2/*排除的完整路径为s3://my-bucket/somedata/data2/*，但缺少日期分区文件夹。通过*在前面添加a可以解决此问题。

要排除data2/目录，请使用：*/data2/*

归档时间：	8 年前
查看次数：	2153 次
最近记录：	7 年，8 月前