我们可以使用以下构造将脚本变量传递到 AWS 数据管道 hiveactivity 中:
“脚本变量”:[ "param1=value1", “参数 2=值 2” ]
我们如何在 hive 脚本中访问这些变量?我一直在尝试在 select 语句中使用它们,但没有成功:
选择 ${hiveconf:param1}, dummytable.col1,... 从 dummytable where dummytable.id = 1;
我对蜂巢的了解有限。对此的任何帮助将不胜感激。谢谢。
我正在寻找在Amazon Redshift上的数据库内复制数据。在此之前,我曾将数据从Redshift数据库复制到EC2实例上托管的PostgreSQL,以进行分析。我有使用dblink EXTENSION进行操作的ruby脚本。
但是现在由于数据在PostgreSQL实例上不可管理,因此我们决定将数据复制到同一Redshift集群上的单独数据库中。
撞!我发现dblink不适用于Postgre 8.0(Redshift版本)。有没有办法让我在Redshift上进行这项工作。
我不想使用复制命令并在两者之间甚至数据管道中添加S3层。您会看到,它是同一集群,只是不同的数据库。
万一没有别的办法,我应该使用数据流水线还是复制到S3,然后再回到Redshift。还是最后本质上是一样的?
PS任何帮助/线索将不胜感激。我会努力的。只是需要一个抬头。
postgresql amazon-s3 amazon-web-services amazon-redshift amazon-data-pipeline
我想在AWS DataPipeline的控制台中定义一些参数,但不能这样做。这些参数将在SqlActivity中调用,因此当我尝试在嵌入式SQL脚本中引用它们并保存管道时,会收到错误消息,指出不存在此类参数。参数页面为空白,我找不到创建该按钮的按钮。Google的结果全都向我展示了如何创建参数化管道,这并不是我要寻找的东西
我想将数据从一个 Amazon dynamodb 表复制到另一个 Amazon dynamodb 表(同一区域)。
1]我有一个名为 MUSIC 的表,其中有 20 个项目 2]我有另一个表 MUSIC_ST (与表 MUSIC 具有相同的架构)。现在我想有选择地将 10 个项目从 MUSIC dynamodb 表迁移到 MUSIC_ST dynamodb 表。
我通过AWS数据管道,这里首先需要将整个表导出到S3,然后我们需要通过这个数据管道将该S3中的文件导入到dynamodb表中。这不是我的项目要求。我们需要将选定的数据从一个 DynamoDB 表迁移到另一个 DynamoDb 表。
请您的解决方案对我有帮助。我很感激。谢谢
在ETL期间,我们执行以下操作:
begin transaction;
drop table if exists target_tmp;
create table target_tmp like target;
insert into target_tmp select * from source_a inner join source_b on ...;
analyze table target_tmp;
drop table target;
alter table target_tmp rename to target;
commit;
Run Code Online (Sandbox Code Playgroud)
如果这很重要,则由AWS Data Pipeline执行SQL命令。
但是,管道有时会失败,并显示以下错误:
ERROR: table 111566 dropped by concurrent transaction
Run Code Online (Sandbox Code Playgroud)
Redshift支持可序列化的隔离。这些命令之一会中断隔离吗?
sql transactions amazon-web-services amazon-redshift amazon-data-pipeline
我有一组 Pipelines,想要拥有多线程架构。我的典型 Pipeline 如下所示:
huber_pipe = Pipeline([
("DATA_CLEANER", DataCleaner()),
("DATA_ENCODING", Encoder(encoder_name='code')),
("SCALE", Normalizer()),
("FEATURE_SELECTION", huber_feature_selector),
("MODELLING", huber_model)
])
Run Code Online (Sandbox Code Playgroud)
是否可以在不同的线程或核心中运行管道的步骤?
python multithreading pipeline scikit-learn amazon-data-pipeline
基本上,我想pg_dump
使用AWS Data Pipeline 将RDS数据库迁移到S3,
我不是100%不确定这是否可行,我已经站到SqlDataNode
想要解决的问题selectQuery
上,我想知道该怎么做。
以下是到目前为止的模板:
AWSTemplateFormatVersion: "2010-05-15"
Description: RDS to S3 Dump
Parameters:
RDSInstanceID:
Description: "Instance ID of RDS to Dump from"
DatabaseName:
Description: "Name of the Database to Dump"
Type: String
Username:
Description: "Database Username"
Type: String
Password:
Description: "Database password"
Type: String
NoEcho: true
RDSToS3Dump:
Type: "AWS::DataPipeline::Pipeline"
Properties:
Name: "RDSToS3Dump"
Description: "Pipeline to backup RDS data to S3"
Activate: true
ParameterObjects:
-
name: "SourceRDSTable"
type: "SqlDataNode"
Database: !Ref DatabaseName
-
name: …
Run Code Online (Sandbox Code Playgroud) amazon-s3 rds amazon-web-services aws-cloudformation amazon-data-pipeline
我在AWS datapipeline中设置了一个emr步骤.step命令如下所示:
/usr/lib/hadoop-mapreduce/hadoop-streaming.jar,-input,s3n://input-bucket/input-file,-output,s3://output/output-dir,-mapper,/bin/cat,-reducer,reducer.py,-file,/scripts/reducer.py,-file,/params/parameters.bin
Run Code Online (Sandbox Code Playgroud)
我收到以下错误
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:322)
at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:535)
at org.apache.hadoop.streaming.PipeReducer.close(PipeReducer.java:134)
at org.apache.hadoop.io.IOUtils.cleanup(IOUtils.java:244)
at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:467)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:393)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
Container killed by the ApplicationMaster.
Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:322)
at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:535)
at org.apache.hadoop.streaming.PipeReducer.close(PipeReducer.java:134)
at org.apache.hadoop.io.IOUtils.cleanup(IOUtils.java:244)
at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:467)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:393)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
at java.security.AccessController.doPrivileged(Native …
Run Code Online (Sandbox Code Playgroud) 我正在考虑将 Google DataFlow 作为运行管道的选项,该管道涉及以下步骤:
我喜欢 DataFlow 管理完成工作所需的虚拟机的生命周期,因此我不需要自己启动或停止它们,但我遇到的所有示例都使用它来执行数据挖掘类型的任务。我想知道对于图像处理和爬行等其他批处理任务来说,这是否是一个可行的选择。
amazon-data-pipeline google-cloud-platform google-cloud-dataflow azure-data-factory apache-beam
我正在使用Load S3 data into RDS MySql table
AWS Data Pipeline 中的模板将 csv 从 S3 存储桶导入到我们的 RDS MySql 中。但是,我(作为具有完全管理权限的 IAM 用户)遇到了无法解决的警告:
对象:Ec2Instance - 警告:无法验证角色的 S3 访问权限。请确保角色 ('DataPipelineDefaultRole') 具有 DataPipeline 的 s3:Get*、s3:List*、s3:Put* 和 sts:AssumeRole 权限。
DataPipelineDefaultRole
Google 告诉我不要使用和的默认策略DataPipelineDefaultResourceRole
。根据AWS Data Pipeline 的 IAM 角色文档和此 AWS 支持论坛上的主题,我使用了内联策略并编辑了这两个角色的信任关系。
政策DataPipelineDefaultRole
:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"cloudwatch:*",
"datapipeline:DescribeObjects",
"datapipeline:EvaluateExpression",
"dynamodb:BatchGetItem",
"dynamodb:DescribeTable",
"dynamodb:GetItem",
"dynamodb:Query",
"dynamodb:Scan",
"dynamodb:UpdateTable",
"ec2:AuthorizeSecurityGroupIngress",
"ec2:CancelSpotInstanceRequests",
"ec2:CreateSecurityGroup",
"ec2:CreateTags",
"ec2:DeleteTags",
"ec2:Describe*",
"ec2:ModifyImageAttribute",
"ec2:ModifyInstanceAttribute", …
Run Code Online (Sandbox Code Playgroud) amazon-s3 amazon-ec2 amazon-web-services amazon-data-pipeline aws-data-pipeline
amazon-s3 ×3
amazon-ec2 ×1
apache-beam ×1
emr ×1
hadoop ×1
hive ×1
mxnet ×1
pipeline ×1
postgresql ×1
python ×1
rds ×1
scikit-learn ×1
sql ×1
transactions ×1