我正在尝试设置Flume-NG从一堆服务器(主要运行Tomcat实例和Apache Httpd)收集各种日志,并将它们转储到5节点Hadoop集群上的HDFS中.设置如下所示:

每个应用程序服务器将相关日志转换为Exec Sources之一(每个日志类型一个:java,httpd,syslog),它们通过FileChannel传送到Avro接收器.在每台服务器上,不同的源,通道和接收器由一个代理管理.事件由位于Hadoop集群(也承载SecondaryNameNode和Jobtracker的节点)上的AvroSource获取.对于每个logtype,都有一个AvroSource侦听不同的端口.事件通过FileChannel进入HDFS接收器,使用FlumeEventAvro EventSerializer和Snappy压缩来保存事件.
问题:管理HDFS接收器的Hadoop节点上的代理(再次,每个日志类型一个)在几个小时后失败,因为我们没有更改JVM的堆大小.从那时起,在该节点上的FileChannel中收集了大量事件,之后也在应用服务器上的FileChannel上收集了,因为Hadoop节点上的FileChannel达到了它的最大容量.当我修复问题时,我无法让Hadoop节点上的代理快速处理积压,以便恢复正常运行.文件通道在下沉之前保存事件的tmp目录的大小,一直在增长.此外,HDFS写入似乎真的很慢.有没有办法强制Flume在摄取新事件之前先处理积压?以下配置是否最佳?也许相关:写入HDFS的文件非常小,约为1-3 MB左右.对于64MB的HDFS默认块大小以及未来的MR操作,这当然不是最佳选择.我应该使用哪些设置来收集大到足以支持HDFS块大小的文件中的事件?我感觉Hadoop节点上的配置不对,我怀疑BatchSize,RollCount和相关参数的值是关闭的,但我不确定最佳值应该是什么.
agent.sources=syslogtail httpdtail javatail
agent.channels=tmpfile-syslog tmpfile-httpd tmpfile-java
agent.sinks=avrosink-syslog avrosink-httpd avrosink-java
agent.sources.syslogtail.type=exec
agent.sources.syslogtail.command=tail -F /var/log/messages
agent.sources.syslogtail.interceptors=ts
agent.sources.syslogtail.interceptors.ts.type=timestamp
agent.sources.syslogtail.channels=tmpfile-syslog
agent.sources.syslogtail.batchSize=1
...
agent.channels.tmpfile-syslog.type=file
agent.channels.tmpfile-syslog.checkpointDir=/tmp/flume/syslog/checkpoint
agent.channels.tmpfile-syslog.dataDirs=/tmp/flume/syslog/data
...
agent.sinks.avrosink-syslog.type=avro
agent.sinks.avrosink-syslog.channel=tmpfile-syslog
agent.sinks.avrosink-syslog.hostname=somehost
agent.sinks.avrosink-syslog.port=XXXXX
agent.sinks.avrosink-syslog.batch-size=1
Run Code Online (Sandbox Code Playgroud)
agent.sources=avrosource-httpd avrosource-syslog avrosource-java
agent.channels=tmpfile-httpd tmpfile-syslog tmpfile-java
agent.sinks=hdfssink-httpd hdfssink-syslog hdfssink-java
agent.sources.avrosource-java.type=avro
agent.sources.avrosource-java.channels=tmpfile-java
agent.sources.avrosource-java.bind=0.0.0.0
agent.sources.avrosource-java.port=XXXXX
...
agent.channels.tmpfile-java.type=file
agent.channels.tmpfile-java.checkpointDir=/tmp/flume/java/checkpoint
agent.channels.tmpfile-java.dataDirs=/tmp/flume/java/data
agent.channels.tmpfile-java.write-timeout=10
agent.channels.tmpfile-java.keepalive=5
agent.channels.tmpfile-java.capacity=2000000
...
agent.sinks.hdfssink-java.type=hdfs
agent.sinks.hdfssink-java.channel=tmpfile-java
agent.sinks.hdfssink-java.hdfs.path=/logs/java/avro/%Y%m%d/%H
agent.sinks.hdfssink-java.hdfs.filePrefix=java-
agent.sinks.hdfssink-java.hdfs.fileType=DataStream
agent.sinks.hdfssink-java.hdfs.rollInterval=300
agent.sinks.hdfssink-java.hdfs.rollSize=0
agent.sinks.hdfssink-java.hdfs.rollCount=40000
agent.sinks.hdfssink-java.hdfs.batchSize=20000
agent.sinks.hdfssink-java.hdfs.txnEventMax=20000
agent.sinks.hdfssink-java.hdfs.threadsPoolSize=100
agent.sinks.hdfssink-java.hdfs.rollTimerPoolSize=10
Run Code Online (Sandbox Code Playgroud) 我在Apache Httpd后面的TomCat容器中运行了几个Java应用程序.在Apache Httdp中SetEnv FOO bar,如果安装了mod_env,则可以设置Env变量.如何在TomCat中运行的Java应用程序中读取这些变量?Java应用程序主要使用Stripes构建,如果有帮助的话.