小编Asw*_* Ks的帖子

如何在 Step Function 中包含 AWS Glue 爬网程序

这是我的要求:我在 AWS Glue 中有一个爬网程序和一个 pyspark 作业。我必须使用 step 函数设置工作流程。

问题:

  1. 如何将 Crawler 添加为第一个状态。我需要提供哪些参数(资源、类型等)。
  2. 如何确保下一个状态 - Pyspark 作业仅在爬虫成功运行后启动。
  3. 有什么方法可以安排 Step Function 状态机在特定时间运行?

参考:

amazon-web-services aws-step-functions aws-glue

5
推荐指数
1
解决办法
3108
查看次数

无法通过 Azure 数据工厂解析 SAP 表中的数据

我正在尝试使用 ADF 中的SAP CDC Connector从 SAP 中提取数据。源数据看起来像这样。

START_DT|PROD_NAME|END_DT 20201230165830.0|BBEESABX|20180710143703.0

当我们对源执行预览数据时,我们得到的数据就像上面一样。但是,在通过复制活动执行复制时,会观察到以下失败:-

失败发生在“源”端。ErrorCode=SapParsingDataFailure,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=解析数据时失败,解析值:'ESABX 201807',预期数据类型'Microsoft.DataTransfer.Common.Shared.ClrTypeCode'。请检查您的SAP 端的原始数据,Source=Microsoft.DataTransfer.Runtime.SapRfcHelper,''Type=System.FormatException,Message=输入字符串的格式不正确。,Source=mscorlib,'

我在水槽侧尝试了几种组合和更改,例如将镶木地板更改为 csv、将复制行为更改为所有可用选项......但似乎没有任何效果。

azure gigya azure-data-factory

5
推荐指数
1
解决办法
666
查看次数

S3 使用 boto3 删除文件夹内的文件

我们如何使用 boto3 删除 S3 文件夹中的文件?

PS - 只应删除文件,应保留文件夹。

python amazon-s3 amazon-web-services boto3

4
推荐指数
1
解决办法
1万
查看次数

如何在pyspark的循环中合并数据帧

我在我的 pyspark 代码中遇到了一个问题。

我必须遍历一个时间范围并计算给定时间范围内每个月的某些指标并将结果写入 S3。

示例代码:

for date in daterange(startdate, enddate):
   df = spark.read.parquet(PATH + "/" + date)
   df_final = applylogic(df)
Run Code Online (Sandbox Code Playgroud)

问题是,我不能一一写入数据帧,因为每次都应该覆盖 S3 路径。所以我需要一种方法将循环中的数据帧组合成单个数据帧并将其写入 S3。

请帮助我将相同的逻辑写入 S3

apache-spark pyspark

1
推荐指数
1
解决办法
244
查看次数