小编aks*_*kar的帖子

从ECS Docker容器运行EMR作业

我将用python编写的容器化ML作业代码放入docker容器中,并且能够使用Amazon ECS作为docker服务运行.我想使用Spark-Pyspark以分布式方式运行并在Amazon EMR上部署.我可以在ECS和EMR之间建立连接吗?

amazon-ecs amazon-emr

9
推荐指数
1
解决办法
819
查看次数

我们可以通过多列组合来拆分 Sqoop 作业吗

我使用下面的 Sqoop 语法按单列 [主要是主键] 拆分 Sqoop 作业。

sqoop import --connect jdbc:oracle:thin:@//oracle_server:1521/sid --用户名 xxx --密码 xxx --table EMPLOYEE --split-by ID -m 10

如果主键不可用于拆分 Sqoop 作业,我们可以使用多个列作为组合吗?

sqoop import --connect jdbc:oracle:thin:@//oracle_server:1521/sid --用户名 xxx --密码 xxx --table EMPLOYEE --split-by FIRST_NAME,LAST_NAME -m 10

hadoop sqoop

5
推荐指数
1
解决办法
2936
查看次数

Presto内存查询错误

我在HDP 2.3的Presto 0.148上运行复杂的查询,该查询的错误超出

Query 20161215_175704_00035_tryh6 failed: Query exceeded local memory limit of 1GB
Run Code Online (Sandbox Code Playgroud)

我能够取消没有问题的简单查询。

在协调器节点和工作节点上的配置

http-server.http.port=9080
query.max-memory=50GB
query.max-memory-per-node=4GB
discovery.uri=http://host:9080
Run Code Online (Sandbox Code Playgroud)

查询-

CREATE TABLE a.product_id, b.date, LOCATION FROM tblproduct a, day b WHERE b.date BETWEEN a.mfg_date AND  a.exp_date
Run Code Online (Sandbox Code Playgroud)

我必须重新启动,然后更新配置。如果对结果集执行任何操作,我会看到Presto将查询结果集保存在内存中。因此,Presto需要大量的预留内存,默认设置1 GB不够好。

presto

0
推荐指数
1
解决办法
1212
查看次数

标签 统计

amazon-ecs ×1

amazon-emr ×1

hadoop ×1

presto ×1

sqoop ×1