Dee*_*thy 7 hadoop apache-kafka
我正在使用hortonworks沙箱.
创建主题:
./kafka-topics.sh --create --zookeeper 10.25.3.207:2181 --replication-factor 1 --partitions 1 --topic lognew
Run Code Online (Sandbox Code Playgroud)
拖尾apache访问日志目录:
tail -f /var/log/httpd/access_log |./kafka-console-producer.sh --broker-list 10.25.3.207:6667 --topic lognew
Run Code Online (Sandbox Code Playgroud)
在另一个终端(kafka bin)启动消费者:
./kafka-console-consumer.sh --zookeeper 10.25.3.207:2181 --topic lognew --from-beginning
Run Code Online (Sandbox Code Playgroud)
apache访问日志将发送到kafka主题" lognew ".
我需要将它们存储到HDFS.
有关如何执行此操作的任何想法或建议.
提前致谢.
Deepthy
我们使用camus.
Camus是LinkedIn开发的一个简单的MapReduce工作,用于将数据从Kafka加载到HDFS中.它能够将数据从Kafka逐步复制到HDFS中,这样MapReduce作业的每次运行都会在前一次运行停止的地方进行.在LinkedIn,Camus习惯于每天从Kafka向HDFS加载数十亿条消息.
但看起来它已经被gobblin取代了
Gobblin是一种通用数据提取框架,用于从各种数据源(例如,数据库,其他API,FTP/SFTP服务器,文件管理器等)中提取,转换和加载大量数据到Hadoop上.Gobblin处理所有数据提取ETL所需的常见例程任务,包括作业/任务调度,任务分区,错误处理,状态管理,数据质量检查,数据发布等.Gobblin在同一执行框架中从不同数据源提取数据,并在一个地方管理不同来源的元数据.这与其他功能相结合,例如自动可扩展性,容错性,数据质量保证,可扩展性以及处理数据模型演变的能力,使Gobblin成为一个易于使用,自助服务且高效的数据提取框架.
| 归档时间: |
|
| 查看次数: |
7126 次 |
| 最近记录: |