标签: amazon-data-pipeline

通过数据管道截断 DynamoDb 或重写数据

可以通过数据管道转储 DynamoDb,也可以在 DynamoDb 中导入数据。导入进展顺利,但数据一直附加到 DynamoDb 中已经存在的数据。

现在我找到了扫描 DynamoDb 并一个一个或通过 Batch 删除项目的工作示例。但无论如何,对于大量数据来说,这不是一个好的变体。

也可以完全删除表并创建它。但是随着该变体索引将丢失。

因此,最好的方法是通过数据管道导入或以某种方式截断来覆盖 DynamoDb 数据。有可能吗?如果是的话,怎么可能?

truncate amazon-dynamodb amazon-data-pipeline data-pipeline

7
推荐指数
1
解决办法
8782
查看次数

S3到Redshift输入数据格式

我正在尝试运行一个简单的链式s3-pipeline-redshift,但我完全坚持使用输入数据格式.这是我的档案:

1,Toyota Park,Bridgeview,IL
2,Columbus Crew Stadium,Columbus,OH
3,RFK Stadium,W​​ashington,DC
4,CommunityAmerica Ballpark,Kansas City,KS
5,Gillette Stadium,Foxborough,MA
6,New York Giants Stadium,East Rutherford,NJ
7,BMO Field,Toronto,ON
8,Home Depot Center,Carson,CA
9,Dick's Sporting Goods Park,Commerce City,CO
10,Pizza Hut Park,Frisco,TX

这是我正在使用的表格:

    create table venue_new(
    venueid smallint not null,
    venuename varchar(100) not null,
    venuecity varchar(30),
    venuestate char(2),
    venueseats integer not null default '1000');
Run Code Online (Sandbox Code Playgroud)

当我使用| 作为分隔符,我收到错误1214 - 未找到分隔符,当我使用逗号时 - 同样的事情,当我将文件转换为utf-8时,我得到"无效的数字,值'.',Pos 0,类型:简短'.我的想法用完了.那件事有什么问题?有人可以给我输入文件的例子或说出我做错了什么吗?先谢谢.我还发现样本文件是在桶awssampledb中可用,但我不知道如何获取它们.

amazon-web-services amazon-redshift amazon-data-pipeline

6
推荐指数
1
解决办法
1万
查看次数

EMR活动停留在Waiting_For_Runner状态

我正在创建一个数据管道来将dynamoDB表导出到S3存储桶.我在数据管道控制台中使用了标准模板.我已经验证了runsOn字段被设置为要启动的EMR集群的名称.但是,EMR活动状态仍然是Waiting_For_Runner ...任何想法为什么会这样?

谢谢!!!

amazon-web-services emr amazon-data-pipeline

6
推荐指数
1
解决办法
1955
查看次数

AWS Data Pipeline:Tez 在简单的 HiveActivity 上失败

我正在尝试为我的 POC 运行简单的 AWS Data Pipeline。我的情况如下:从存储在 S3 上的 CSV 获取数据,对它们执行简单的 hive 查询并将结果放回 S3。

我创建了非常基本的管道定义,并尝试在不同的 emr 版本上运行它:4.2.0 和 5.3.1 - 尽管在不同的地方都失败了。

所以管道定义如下:

{
  "objects": [
    {
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "maximumRetries": "1",
      "enableDebugging": "true",
      "name": "EmrCluster",
      "keyPair": "Jeff Key Pair",
      "id": "EmrClusterId_CM5Td",
      "releaseLabel": "emr-5.3.1",
      "region": "us-west-2",
      "type": "EmrCluster",
      "terminateAfter": "1 Day"
    },
    {
      "column": [
        "policyID INT",
        "statecode STRING"
      ],
      "name": "SampleCSVOutputFormat",
      "id": "DataFormatId_9sLJ0",
      "type": "CSV"
    },
    {
      "failureAndRerunMode": "CASCADE",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "s3://aws-logs/datapipeline/",
      "scheduleType": "ONDEMAND",
      "name": "Default",
      "id": …
Run Code Online (Sandbox Code Playgroud)

hadoop amazon-web-services amazon-data-pipeline tez

6
推荐指数
1
解决办法
1083
查看次数

将所选项目从 AWS dyanmoDB 表复制到另一个表

我想将数据从一个 Amazon dynamodb 表复制到另一个 Amazon dynamodb 表(同一区域)。

1]我有一个名为 MUSIC 的表,其中有 20 个项目 2]我有另一个表 MUSIC_ST (与表 MUSIC 具有相同的架构)。现在我想有选择地将 10 个项目从 MUSIC dynamodb 表迁移到 MUSIC_ST dynamodb 表。

我通过AWS数据管道,这里首先需要将整个表导出到S3,然后我们需要通过这个数据管道将该S3中的文件导入到dynamodb表中。这不是我的项目要求。我们需要将选定的数据从一个 DynamoDB 表迁移到另一个 DynamoDb 表。

请您的解决方案对我有帮助。我很感激。谢谢

data-migration amazon-dynamodb amazon-data-pipeline

5
推荐指数
1
解决办法
2965
查看次数

sklearn Pipeline 的并行化

我有一组 Pipelines,想要拥有多线程架构。我的典型 Pipeline 如下所示:

huber_pipe = Pipeline([
        ("DATA_CLEANER", DataCleaner()),
        ("DATA_ENCODING", Encoder(encoder_name='code')),
        ("SCALE", Normalizer()),
        ("FEATURE_SELECTION", huber_feature_selector),
        ("MODELLING", huber_model)
    ])
Run Code Online (Sandbox Code Playgroud)

是否可以在不同的线程或核心中运行管道的步骤?

python multithreading pipeline scikit-learn amazon-data-pipeline

5
推荐指数
1
解决办法
974
查看次数

AWS中使用s3作为数据湖的ETL管道如何处理增量更新

我在 AWS 中设置了 ETL 管道,如下所示

input_rawdata -> s3 -> lambda -> 触发spark etl脚本(通过awsglue)->输出(s3,parquet文件)

我的问题是假设上面是数据的初始加载,我如何设置运行每天(或每小时)添加新行或更新现有记录的增量批次

a.) 如何继续附加到相同的 s3 parquet 文件。以便后续 presto db 查询产生最新数据。

b.) 如何处理重复记录获取查询的最新时间戳。

在spark脚本中,我是否需要创建源为s3的Hive外部表并在presto db中使用?

感谢您的任何意见。

etl amazon-s3 amazon-web-services amazon-data-pipeline aws-glue

5
推荐指数
1
解决办法
3509
查看次数

AWS EMR Spark:错误:无法从 JAR 加载主类

我正在尝试使用 AWS 控制台向 AWS EMR 集群提交 Spark 作业。但它失败了:

Cannot load main class from JAR. 当我将主类指定为AWS EMR 控制台-> 添加步骤--class中的Arguments选项时,作业成功运行。

在本地机器上,当没有指定如下主类时,这项工作似乎工作得很好:

 ./spark-submit /home/astro/spark-programs/SpotEMR/MyJob.jar
Run Code Online (Sandbox Code Playgroud)

我已使用运行配置将主类设置为 jar。避免按原样传递主类的主要原因--class是,我必须使用 EMRAcivity 在 AWS Datapipeline 中运行此作业。在 AWS Datapipeline 中,目前无法为正在提交的作业指定主类。

任何帮助将不胜感激。

amazon-emr amazon-data-pipeline apache-spark

5
推荐指数
1
解决办法
3558
查看次数

AWS Data Pipeline 卡在 Waiting For Runner

我的目标是将 AWS RDS 上运行的 postgreSQL 数据库中的表复制到 Amazone S3 上的 .csv 文件。为此,我使用 AWS 数据管道并找到了以下教程,但是当我按照所有步骤操作时,我的管道卡在了:"WAITING FOR RUNNER"请参阅屏幕截图。AWS文档指出:

确保为这些任务的 runningOn 或 workerGroup 字段设置有效值

但是字段“运行于”已设置。知道为什么这条管道被卡住了吗?

在此处输入图片说明 在此处输入图片说明

和我的定义文件:

{
  "objects": [
    {
      "output": {
        "ref": "DataNodeId_Z8iDO"
      },
      "input": {
        "ref": "DataNodeId_hEUzs"
      },
      "name": "DefaultCopyActivity01",
      "runsOn": {
        "ref": "ResourceId_oR8hY"
      },
      "id": "CopyActivityId_8zaDw",
      "type": "CopyActivity"
    },
    {
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "name": "DefaultResource1",
      "id": "ResourceId_oR8hY",
      "type": "Ec2Resource",
      "terminateAfter": "1 Hour"
    },
    {
      "*password": "xxxxxxxxx",
      "name": "DefaultDatabase1",
      "id": "DatabaseId_BWxRr",
      "type": "RdsDatabase",
      "region": "eu-central-1", …
Run Code Online (Sandbox Code Playgroud)

amazon-web-services amazon-data-pipeline

5
推荐指数
1
解决办法
1519
查看次数

AWSGlue AccessDeniedException,状态代码 400

我正在尝试在 S3、Glue、Athena 等的帮助下为数据工程项目构建数据管道,但在设置glue 爬虫以对数据进行索引时陷入困境。即使我根据需要设置了角色,但仍然出现以下错误。

 {"service":"AWSGlue","statusCode":400,"errorCode":"AccessDeniedException","requestId":"7bd42729- 
 bc4b-4e22-af2a-553860002c64","errorMessage":"Account 834025784276 is denied 
 access.","type":"AwsServiceError"}
Run Code Online (Sandbox Code Playgroud)

我在设置 Glue Crawler 时遇到错误

我的角色权限

cloud amazon-web-services amazon-data-pipeline aws-glue

5
推荐指数
1
解决办法
5181
查看次数