Bha*_*hah 1 java hive amazon-s3 amazon-emr sqoop
我想通过SQOOP将大数据从EC2导入到Hive中.Hive中的导入数据将通过应用某种算法在Hive中处理,并将生成一些结果(以表格形式,仅在Hive中).生成的结果将仅通过SQOOP再次导出回Ec2.
我是Amazon Web Services的新手,希望借助AWS EMR实现此用例.我在本地机器上实现了它.
我已经阅读了一些与AWS EMR相关的链接,用于启动实例以及什么是EMR,工作原理等等...
1)EMR使用S3 Buckets,它保存输入和输出数据Hadoop Processing(以Objects的形式).--->我没有得到如何以S3上的对象形式存储数据(我的数据将是文件)
2)如前所述,我已经在Java中为我的用例实现了一个任务.因此,如果我创建我的程序的JAR并使用自定义JAR创建作业流.是否有可能像这样实现或者需要为此做一些额外的事情?
3)正如我在用例中所说,我希望在SQOOP的帮助下将结果导出回Ec2.EMR是否支持SQOOP?
- 编辑部分4)此外,我将每天/每周从SQL Server导入我的数据,因为我的SQL Server数据每天/每周更新.如果我想在S3上导入数据并将其提供给Hive那么我该怎么做?(因为Hive将其数据存储在/ user/hive/warehouse目录下的HDFS上).如何在HDFS中链接到S3和/ user/hive/warehouse目录.
请尽快回复我的回答.我想尽早做到这一点.
非常感谢.
| 归档时间: |
|
| 查看次数: |
2988 次 |
| 最近记录: |