创建 AWS 胶水作业是否需要爬虫？

Question

我正在通过以下页面学习 Glue with Pyspark： https: //aws-dojo.com/ws8/labs/configure-crawler/。

我的问题是：创建粘合作业是否需要爬网程序并在 Lake Formation 中创建数据库？

我的 aws 角色有一些问题，并且我无权在 LakeFormation 中创建资源，所以我在想是否可以跳过它们，只创建粘合作业并测试我的脚本？

例如，我只想测试一个输入 .txt 文件的 pyspark 脚本，我将其存储在 S3 中，我还需要爬虫吗？我可以boto3创建一个粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗？

Answer 1

不，您不需要创建爬虫来运行 Glue Job。

爬虫可以读取多个数据源并使 Glue Catalog 保持最新。例如，当您在 S3 中对数据进行分区时，随着新分区（文件夹）的创建，我们可以安排爬虫作业来读取这些新的 S3 分区并更新 Glue 目录/表中的元数据。

一旦使用元数据更新 Glue 目录，我们就可以使用这些 Glue ETL 或 Athena 或其他进程轻松读取实际数据（在这些 Glue 目录/表后面）。

在您的情况下，您直接希望读取 S3 文件并将其在 Glue 作业中写回到 S3，因此，您不需要爬虫或 Glue 目录。