Pix*_*xou 6 nginx apache-kafka
我们正在处理来自我们在HDFS上添加的多个服务器的大型日志文件.我们目前有一个很好的批处理解决方案(主要是每天移动和编写文件),并希望用Kafka实现实时解决方案.
基本上,我们需要将来自Nginx的日志放入Kafka,然后写一个消费者在HDFS上写(这可以通过HDFS消费者来完成https://github.com/kafka-dev/kafka/tree/master/contrib/ hadoop-consumer).
您建议将日志移至Kafka的方法是什么?
还有其他想法吗?
我知道这是一个老问题.但最近,我还需要做同样的事情.
问题出tail -f producer在日志轮换上,当尾巴死亡时,你真的不知道哪些线路被发送到Kafka.
从nginx 1.7.1开始,access_log指令可以登录到syslog.请参阅http://nginx.org/en/docs/syslog.html.我们利用它来记录到rsyslog,从rsyslog到Kafka.http://www.rsyslog.com/doc/master/configuration/modules/omkafka.html
这样做有点圆润,但这样,日志丢失的机会也就不小了.此外,如果您使用的是CentOS,那么rsyslog无论如何都会附带它.
所以简而言之,这是我认为将nginx日志放入kafka的最佳选择:
nginx - > rsyslog - > kafka
| 归档时间: |
|
| 查看次数: |
5783 次 |
| 最近记录: |