这是我的要求:我在 AWS Glue 中有一个爬网程序和一个 pyspark 作业。我必须使用 step 函数设置工作流程。
问题:
参考:
我正在尝试使用 ADF 中的SAP CDC Connector从 SAP 中提取数据。源数据看起来像这样。
START_DT|PROD_NAME|END_DT 20201230165830.0|BBEESABX|20180710143703.0
当我们对源执行预览数据时,我们得到的数据就像上面一样。但是,在通过复制活动执行复制时,会观察到以下失败:-
失败发生在“源”端。ErrorCode=SapParsingDataFailure,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=解析数据时失败,解析值:'ESABX 201807',预期数据类型'Microsoft.DataTransfer.Common.Shared.ClrTypeCode'。请检查您的SAP 端的原始数据,Source=Microsoft.DataTransfer.Runtime.SapRfcHelper,''Type=System.FormatException,Message=输入字符串的格式不正确。,Source=mscorlib,'
我在水槽侧尝试了几种组合和更改,例如将镶木地板更改为 csv、将复制行为更改为所有可用选项......但似乎没有任何效果。
我们如何使用 boto3 删除 S3 文件夹中的文件?
PS - 只应删除文件,应保留文件夹。
我在我的 pyspark 代码中遇到了一个问题。
我必须遍历一个时间范围并计算给定时间范围内每个月的某些指标并将结果写入 S3。
示例代码:
for date in daterange(startdate, enddate):
df = spark.read.parquet(PATH + "/" + date)
df_final = applylogic(df)
Run Code Online (Sandbox Code Playgroud)
问题是,我不能一一写入数据帧,因为每次都应该覆盖 S3 路径。所以我需要一种方法将循环中的数据帧组合成单个数据帧并将其写入 S3。
请帮助我将相同的逻辑写入 S3