标签: amazon-data-pipeline

如何在 hive (AWS Data Pipeline) 中使用 scriptVariables

我们可以使用以下构造将脚本变量传递到 AWS 数据管道 hiveactivity 中:

“脚本变量”:[
    "param1=value1",
    “参数 2=值 2”
  ]

我们如何在 hive 脚本中访问这些变量?我一直在尝试在 select 语句中使用它们,但没有成功:

选择 ${hiveconf:param1}, dummytable.col1,...
从 dummytable where dummytable.id = 1;

我对蜂巢的了解有限。对此的任何帮助将不胜感激。谢谢。

hive amazon-web-services amazon-data-pipeline

5
推荐指数
1
解决办法
1157
查看次数

Amazon Redshift:在数据库之间复制数据

我正在寻找在Amazon Redshift上的数据库内复制数据。在此之前,我曾将数据从Redshift数据库复制到EC2实例上托管的PostgreSQL,以进行分析。我有使用dblink EXTENSION进行操作的ruby脚本。

但是现在由于数据在PostgreSQL实例上不可管理,因此我们决定将数据复制到同一Redshift集群上的单独数据库中。

撞!我发现dblink不适用于Postgre 8.0(Redshift版本)。有没有办法让我在Redshift上进行这项工作。

我不想使用复制命令并在两者之间甚至数据管道中添加S3层。您会看到,它是同一集群,只是不同的数据库。

万一没有别的办法,我应该使用数据流水线还是复制到S3,然后再回到Redshift。还是最后本质上是一样的?

PS任何帮助/线索将不胜感激。我会努力的。只是需要一个抬头。

postgresql amazon-s3 amazon-web-services amazon-redshift amazon-data-pipeline

5
推荐指数
1
解决办法
6168
查看次数

如何在AWS Data Pipeline的控制台中创建参数

我想在AWS DataPipeline的控制台中定义一些参数,但不能这样做。这些参数将在SqlActivity中调用,因此当我尝试在嵌入式SQL脚本中引用它们并保存管道时,会收到错误消息,指出不存在此类参数。参数页面为空白,我找不到创建该按钮的按钮。Google的结果全都向我展示了如何创建参数化管道,这并不是我要寻找的东西

amazon-web-services amazon-data-pipeline

5
推荐指数
1
解决办法
1772
查看次数

将所选项目从 AWS dyanmoDB 表复制到另一个表

我想将数据从一个 Amazon dynamodb 表复制到另一个 Amazon dynamodb 表(同一区域)。

1]我有一个名为 MUSIC 的表,其中有 20 个项目 2]我有另一个表 MUSIC_ST (与表 MUSIC 具有相同的架构)。现在我想有选择地将 10 个项目从 MUSIC dynamodb 表迁移到 MUSIC_ST dynamodb 表。

我通过AWS数据管道,这里首先需要将整个表导出到S3,然后我们需要通过这个数据管道将该S3中的文件导入到dynamodb表中。这不是我的项目要求。我们需要将选定的数据从一个 DynamoDB 表迁移到另一个 DynamoDb 表。

请您的解决方案对我有帮助。我很感激。谢谢

data-migration amazon-dynamodb amazon-data-pipeline

5
推荐指数
1
解决办法
2965
查看次数

AWS Redshift是否可以删除包装在事务中的表?

在ETL期间,我们执行以下操作:

    begin transaction;

    drop table if exists target_tmp;
    create table target_tmp like target;

    insert into target_tmp select * from source_a inner join source_b on ...;
    analyze table target_tmp;

    drop table target;
    alter table target_tmp rename to target;

    commit;
Run Code Online (Sandbox Code Playgroud)

如果这很重要,则由AWS Data Pipeline执行SQL命令。

但是,管道有时会失败,并显示以下错误:

    ERROR: table 111566 dropped by concurrent transaction
Run Code Online (Sandbox Code Playgroud)

Redshift支持可序列化的隔离。这些命令之一会中断隔离吗?

sql transactions amazon-web-services amazon-redshift amazon-data-pipeline

5
推荐指数
1
解决办法
1970
查看次数

sklearn Pipeline 的并行化

我有一组 Pipelines,想要拥有多线程架构。我的典型 Pipeline 如下所示:

huber_pipe = Pipeline([
        ("DATA_CLEANER", DataCleaner()),
        ("DATA_ENCODING", Encoder(encoder_name='code')),
        ("SCALE", Normalizer()),
        ("FEATURE_SELECTION", huber_feature_selector),
        ("MODELLING", huber_model)
    ])
Run Code Online (Sandbox Code Playgroud)

是否可以在不同的线程或核心中运行管道的步骤?

python multithreading pipeline scikit-learn amazon-data-pipeline

5
推荐指数
1
解决办法
974
查看次数

是否可以使用AWS Data Pipeline将RDS数据库转储到S3?

基本上,我想pg_dump使用AWS Data Pipeline 将RDS数据库迁移到S3,

我不是100%不确定这是否可行,我已经站到SqlDataNode想要解决的问题selectQuery上,我想知道该怎么做。

以下是到目前为止的模板:

AWSTemplateFormatVersion: "2010-05-15"

Description: RDS to S3 Dump

Parameters:
  RDSInstanceID:
    Description: "Instance ID of RDS to Dump from"
  DatabaseName:
    Description: "Name of the Database to Dump"
    Type: String
  Username:
    Description: "Database Username"
    Type: String
  Password:
    Description: "Database password"
    Type: String
    NoEcho: true

RDSToS3Dump:
  Type: "AWS::DataPipeline::Pipeline"
  Properties:
    Name: "RDSToS3Dump"
    Description: "Pipeline to backup RDS data to S3"
    Activate: true
    ParameterObjects:
      -
        name: "SourceRDSTable"
        type: "SqlDataNode"
        Database: !Ref DatabaseName
      -
        name: …
Run Code Online (Sandbox Code Playgroud)

amazon-s3 rds amazon-web-services aws-cloudformation amazon-data-pipeline

5
推荐指数
1
解决办法
2674
查看次数

在AWS Emr中使用Mxnet失败的Hadoop流式传输作业

我在AWS datapipeline中设置了一个emr步骤.step命令如下所示:

/usr/lib/hadoop-mapreduce/hadoop-streaming.jar,-input,s3n://input-bucket/input-file,-output,s3://output/output-dir,-mapper,/bin/cat,-reducer,reducer.py,-file,/scripts/reducer.py,-file,/params/parameters.bin
Run Code Online (Sandbox Code Playgroud)

我收到以下错误

Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
    at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:322)
    at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:535)
    at org.apache.hadoop.streaming.PipeReducer.close(PipeReducer.java:134)
    at org.apache.hadoop.io.IOUtils.cleanup(IOUtils.java:244)
    at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:467)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:393)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

Container killed by the ApplicationMaster.
Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143

Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
    at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:322)
    at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:535)
    at org.apache.hadoop.streaming.PipeReducer.close(PipeReducer.java:134)
    at org.apache.hadoop.io.IOUtils.cleanup(IOUtils.java:244)
    at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:467)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:393)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
    at java.security.AccessController.doPrivileged(Native …
Run Code Online (Sandbox Code Playgroud)

hadoop emr hadoop-streaming amazon-data-pipeline mxnet

5
推荐指数
1
解决办法
289
查看次数

使用 Google DataFlow/Apache Beam 并行化图像处理或爬行任务是否有意义?

我正在考虑将 Google DataFlow 作为运行管道的选项,该管道涉及以下步骤:

  1. 从网络下载图像;
  2. 处理图像。

我喜欢 DataFlow 管理完成工作所需的虚拟机的生命周期,因此我不需要自己启动或停止它们,但我遇到的所有示例都使用它来执行数据挖掘类型的任务。我想知道对于图像处理和爬行等其他批处理任务来说,这是否是一个可行的选择。

amazon-data-pipeline google-cloud-platform google-cloud-dataflow azure-data-factory apache-beam

5
推荐指数
1
解决办法
1950
查看次数

AWS Data Pipeline:IAM 角色的 S3 访问权限问题

我正在使用Load S3 data into RDS MySql tableAWS Data Pipeline 中的模板将 csv 从 S3 存储桶导入到我们的 RDS MySql 中。但是,我(作为具有完全管理权限的 IAM 用户)遇到了无法解决的警告:

对象:Ec2Instance - 警告:无法验证角色的 S3 访问权限。请确保角色 ('DataPipelineDefaultRole') 具有 DataPipeline 的 s3:Get*、s3:List*、s3:Put* 和 sts:AssumeRole 权限。

DataPipelineDefaultRoleGoogle 告诉我不要使用和的默认策略DataPipelineDefaultResourceRole。根据AWS Data Pipeline 的 IAM 角色文档和此 AWS 支持论坛上的主题,我使用了内联策略并编辑了这两个角色的信任关系。

政策DataPipelineDefaultRole

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "cloudwatch:*",
                "datapipeline:DescribeObjects",
                "datapipeline:EvaluateExpression",
                "dynamodb:BatchGetItem",
                "dynamodb:DescribeTable",
                "dynamodb:GetItem",
                "dynamodb:Query",
                "dynamodb:Scan",
                "dynamodb:UpdateTable",
                "ec2:AuthorizeSecurityGroupIngress",
                "ec2:CancelSpotInstanceRequests",
                "ec2:CreateSecurityGroup",
                "ec2:CreateTags",
                "ec2:DeleteTags",
                "ec2:Describe*",
                "ec2:ModifyImageAttribute",
                "ec2:ModifyInstanceAttribute", …
Run Code Online (Sandbox Code Playgroud)

amazon-s3 amazon-ec2 amazon-web-services amazon-data-pipeline aws-data-pipeline

5
推荐指数
1
解决办法
3001
查看次数