每周从FTP下载文件到HDFS

Joc*_*nDB 5 ftp hadoop hdfs cloudera oozie

我想每周自动将文件从ftp服务器下载到CDH5 hadoop集群中。最好的方法是什么?

我当时在考虑Oozie协调员的工作,但我想不出一种下载文件的好方法。

Jam*_*Con 3

由于您使用的是 CDH5,因此值得注意的是, HDFS 的NFSv3接口包含在该 Hadoop 发行版中。您应该检查CDH5 安装指南文档中的 “配置 NFSv3 网关”。

完成后,您可以使用 wget、curl、python 等将文件放到 NFS 挂载上。您可能想通过 Oozie 来完成此操作...进入作业设计器并创建“Shell”命令的副本。输入您选择执行数据传输的命令(python 脚本、curl、ftp 等),并使用 ${myVar} 参数化作业。

它并不完美,但我认为它相当优雅。