Yur*_*riy 17 hive amazon-s3 amazon-emr amazon-dynamodb
我需要在一个DynamoDB表中执行大约1.3亿个项目(总共5个Gb)的初始上传.在我使用应用程序中的API上传问题后,我决定尝试使用EMR.
长话短说,即使在最强大的集群上,导入非常平均(对于EMR)的数据量也需要很长时间,耗费数百小时且进展很少(大约20分钟处理测试2Mb数据位,并且没有管理在12小时内完成测试700Mb文件).
我已经联系了亚马逊高级支持,但到目前为止他们只是说"出于某种原因,DynamoDB导入很慢".
我在交互式蜂巢会话中尝试了以下说明:
CREATE EXTERNAL TABLE test_medium (
hash_key string,
range_key bigint,
field_1 string,
field_2 string,
field_3 string,
field_4 bigint,
field_5 bigint,
field_6 string,
field_7 bigint
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
LOCATION 's3://my-bucket/s3_import/'
;
CREATE EXTERNAL TABLE ddb_target (
hash_key string,
range_key bigint,
field_1 bigint,
field_2 bigint,
field_3 bigint,
field_4 bigint,
field_5 bigint,
field_6 string,
field_7 bigint
)
STORED BY 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler'
TBLPROPERTIES (
"dynamodb.table.name" = "my_ddb_table",
"dynamodb.column.mapping" = "hash_key:hash_key,range_key:range_key,field_1:field_1,field_2:field_2,field_3:field_3,field_4:field_4,field_5:field_5,field_6:field_6,field_7:field_7"
)
;
INSERT OVERWRITE TABLE ddb_target SELECT * FROM test_medium;
Run Code Online (Sandbox Code Playgroud)
各种标志似乎没有任何明显的效果.尝试过以下设置而不是默认设置:
SET dynamodb.throughput.write.percent = 1.0;
SET dynamodb.throughput.read.percent = 1.0;
SET dynamodb.endpoint=dynamodb.eu-west-1.amazonaws.com;
SET hive.base.inputformat=org.apache.hadoop.hive.ql.io.HiveInputFormat;
SET mapred.map.tasks = 100;
SET mapred.reduce.tasks=20;
SET hive.exec.reducers.max = 100;
SET hive.exec.reducers.min = 50;
Run Code Online (Sandbox Code Playgroud)
为HDFS而不是DynamoDB目标运行的相同命令在几秒钟内完成.
这似乎是一个简单的任务,一个非常基本的用例,我真的很想知道我在这里做错了什么.
Yur*_*riy 15
以下是我最近从AWS支持获得的答案.希望能帮助处于类似情况的人:
EMR工作程序当前实现为单线程工作程序,其中每个工作程序逐个编写项目(使用Put,而不是BatchWrite).因此,每次写入消耗1个写入容量单位(IOP).
这意味着您正在建立许多连接,这在某种程度上会降低性能.如果使用BatchWrites,则意味着您可以在单个操作中提交多达25行,这样性能成本更低(但如果我理解的话,价格相同).这是我们所知道的,将来可能会在EMR中实现.我们不能提供时间表.
如前所述,这里的主要问题是您的DynamoDB中的表正在达到预配置的吞吐量,因此请尝试暂时为导入增加它,然后随意将其降低到您需要的任何级别.
这可能听起来有点方便但是当您这样做时警报出现问题,这就是您从未收到警报的原因.这个问题已经解决了.
| 归档时间: |
|
| 查看次数: |
6383 次 |
| 最近记录: |