为Elastic MapReduce配置外部数据源

Víc*_*ela 10 amazon-web-services cassandra elastic-map-reduce

我们想在我们当前的数据库之上使用Amazon Elastic MapReduce(我们在EC2上使用Cassandra).查看Amazon EMR常见问题解答,应该可以: Amazon EMR常见问题解答:问:我可以从Internet或Amazon S3以外的其他地方加载数据吗?

但是,在创建新作业流时,我们只能将S3存储桶配置为输入数据源.

关于如何做到这一点的任何想法/样本?

谢谢!

PS:我已经看到了这个问题如何使用Elastic MapReduce的外部数据,但答案并没有真正解释如何进行/配置它,只是有可能.

Chr*_*her 0

尝试使用scp将文件复制到您的 EMR 实例:

    my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file
Run Code Online (Sandbox Code Playgroud)

(或使用ftpwgetcurl或任何其他你想要的)

然后使用ssh登录您的 EMR 实例并将其加载到hadoop中:

    my-desktop-box$ ssh my-emr-node
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file
Run Code Online (Sandbox Code Playgroud)