创建 AWS 胶水作业是否需要爬虫?

waw*_*awa 3 amazon-web-services boto3 pyspark aws-glue aws-lake-formation

我正在通过以下页面学习 Glue with Pyspark: https: //aws-dojo.com/ws8/labs/configure-crawler/

我的问题是:创建粘合作业是否需要爬网程序并在 Lake Formation 中创建数据库?

我的 aws 角色有一些问题,并且我无权在 LakeFormation 中创建资源,所以我在想是否可以跳过它们,只创建粘合作业并测试我的脚本?

例如,我只想测试一个输入 .txt 文件的 pyspark 脚本,我将其存储在 S3 中,我还需要爬虫吗?我可以boto3创建一个粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗?

Bal*_*ala 5

不,您不需要创建爬虫来运行 Glue Job。

爬虫可以读取多个数据源并使 Glue Catalog 保持最新。例如,当您在 S3 中对数据进行分区时,随着新分区(文件夹)的创建,我们可以安排爬虫作业来读取这些新的 S3 分区并更新 Glue 目录/表中的元数据。

一旦使用元数据更新 Glue 目录,我们就可以使用这些 Glue ETL 或 Athena 或其他进程轻松读取实际数据(在这些 Glue 目录/表后面)。

在您的情况下,您直接希望读取 S3 文件并将其在 Glue 作业中写回到 S3,因此,您不需要爬虫或 Glue 目录。