如何将Kafka主题加载到HDFS？

Question

如何将Kafka主题加载到HDFS？

我正在使用hortonworks沙箱.
创建主题:

./kafka-topics.sh --create --zookeeper 10.25.3.207:2181 --replication-factor 1 --partitions 1 --topic lognew

Run Code Online (Sandbox Code Playgroud)

拖尾apache访问日志目录:

tail -f  /var/log/httpd/access_log |./kafka-console-producer.sh --broker-list 10.25.3.207:6667 --topic lognew

Run Code Online (Sandbox Code Playgroud)

在另一个终端(kafka bin)启动消费者:

./kafka-console-consumer.sh --zookeeper 10.25.3.207:2181 --topic lognew --from-beginning

Run Code Online (Sandbox Code Playgroud)

apache访问日志将发送到kafka主题" lognew ".

我需要将它们存储到HDFS.
有关如何执行此操作的任何想法或建议.

提前致谢.
Deepthy

Answer 1

Ana*_*eka 5

我们使用camus.

Camus是LinkedIn开发的一个简单的MapReduce工作,用于将数据从Kafka加载到HDFS中.它能够将数据从Kafka逐步复制到HDFS中,这样MapReduce作业的每次运行都会在前一次运行停止的地方进行.在LinkedIn,Camus习惯于每天从Kafka向HDFS加载数十亿条消息.

但看起来它已经被gobblin取代了

Gobblin是一种通用数据提取框架,用于从各种数据源(例如,数据库,其他API,FTP/SFTP服务器,文件管理器等)中提取,转换和加载大量数据到Hadoop上.Gobblin处理所有数据提取ETL所需的常见例程任务,包括作业/任务调度,任务分区,错误处理,状态管理,数据质量检查,数据发布等.Gobblin在同一执行框架中从不同数据源提取数据,并在一个地方管理不同来源的元数据.这与其他功能相结合,例如自动可扩展性,容错性,数据质量保证,可扩展性以及处理数据模型演变的能力,使Gobblin成为一个易于使用,自助服务且高效的数据提取框架.

归档时间：	10 年，1 月前
查看次数：	7126 次
最近记录：	9 年，7 月前