使用Flume从同一网络上的远程服务器(没有Flume)获取实时日志数据

jus*_*zzy 5 streaming logging hadoop syslog flume

我有安装了Hadoop和Flume的服务器X,而且我的服务器Y既没有,也没有在同一个网络上.

服务器Y当前将数据存储到一个连续写入的日志文件中,直到在当天结束时附加日期戳并启动新的日志文件.

目标是使用flume将日志从服务器Y直播到服务器X,处理数据并将其放入HDFS.

我认为,最好的办法是在服务器Y上的syslog守护进程转发TCP通过这些事件,但有很多篮球的组织内逐步完成,即使知道可以这样做.另一个选项是(选项2 :)以某种方式从服务器Y的目录中的文件中读取,或者(选项3 :)将目录安装到服务器X,将目录视为假脱机目录.选项2的问题在于服务器Y没有安装水槽,这样做是不可能的.选项2和3的问题在于传入的信息可能不是活动的,并且在每天结束的过渡期间可能存在数据丢失.还有一个身份验证问题,必须使用单独的用户名和密码登录到服务器Y. 我们显然无法将信息硬编码到连接配置中.

我的主要问题是:是否需要在源服务器上安装Flume才能使此设置生效?水槽代理可以专门在服务器X上运行吗?哪个选项是理想的?