waw*_*awa 3 amazon-web-services boto3 pyspark aws-glue aws-lake-formation
我正在通过以下页面学习 Glue with Pyspark: https: //aws-dojo.com/ws8/labs/configure-crawler/。
我的问题是:创建粘合作业是否需要爬网程序并在 Lake Formation 中创建数据库?
我的 aws 角色有一些问题,并且我无权在 LakeFormation 中创建资源,所以我在想是否可以跳过它们,只创建粘合作业并测试我的脚本?
例如,我只想测试一个输入 .txt 文件的 pyspark 脚本,我将其存储在 S3 中,我还需要爬虫吗?我可以boto3创建一个粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗?
不,您不需要创建爬虫来运行 Glue Job。
爬虫可以读取多个数据源并使 Glue Catalog 保持最新。例如,当您在 S3 中对数据进行分区时,随着新分区(文件夹)的创建,我们可以安排爬虫作业来读取这些新的 S3 分区并更新 Glue 目录/表中的元数据。
一旦使用元数据更新 Glue 目录,我们就可以使用这些 Glue ETL 或 Athena 或其他进程轻松读取实际数据(在这些 Glue 目录/表后面)。
在您的情况下,您直接希望读取 S3 文件并将其在 Glue 作业中写回到 S3,因此,您不需要爬虫或 Glue 目录。
| 归档时间: |
|
| 查看次数: |
2696 次 |
| 最近记录: |