有关在Amazon EMR上运行Hive/Sqoop的查询?

Bha*_*hah 1 java hive amazon-s3 amazon-emr sqoop

我的用例:

我想通过SQOOP将大数据从EC2导入到Hive中.Hive中的导入数据将通过应用某种算法在Hive中处理,并将生成一些结果(以表格形式,仅在Hive中).生成的结果将仅通过SQOOP再次导出回Ec2.

我是Amazon Web Services的新手,希望借助AWS EMR实现此用例.我在本地机器上实现了它.

我已经阅读了一些与AWS EMR相关的链接,用于启动实例以及什么是EMR,工作原理等等...

我对EMR有些怀疑:

1)EMR使用S3 Buckets,它保存输入和输出数据Hadoop Processing(以Objects的形式).--->我没有得到如何以S3上的对象形式存储数据(我的数据将是文件)

2)如前所述,我已经在Java中为我的用例实现了一个任务.因此,如果我创建我的程序的JAR并使用自定义JAR创建作业流.是否有可能像这样实现或者需要为此做一些额外的事情?

3)正如我在用例中所说,我希望在SQOOP的帮助下将结果导出回Ec2.EMR是否支持SQOOP?

- 编辑部分4)此外,我将每天/每周从SQL Server导入我的数据,因为我的SQL Server数据每天/每周更新.如果我想在S3上导入数据并将其提供给Hive那么我该怎么做?(因为Hive将其数据存储在/ user/hive/warehouse目录下的HDFS上).如何在HDFS中链接到S3和/ user/hive/warehouse目录.

请尽快回复我的回答.我想尽早做到这一点.

非常感谢.

rep*_*tor 5

可以在AWS EMR上安装Sqoop.您不需要使用S3来存储文件,而是可以使用本地(临时)HDFS.安装Sqoop后,可以将数据导入HDFS,在HDFS中运行计算,然后再次使用Sqoop将数据导出.

这是我写的关于如何在AWS EMR上安装Sqoop的文章:http://blog.kylemulka.com/2012/04/how-to-install-sqoop-on-amazon-elastic-map-reduce-emr/