哪个更适合日志分析

Question

我必须使用Hadoop 相关工具分析存储在生产服务器上的 Gzip 压缩日志文件。

我无法决定如何做到这一点，以及使用什么，以下是我考虑使用的一些方法（随意推荐其他方法）：

在我做任何事情之前，我需要从生产服务器获取压缩文件并处理它们，然后将它们推送到Apache HBase

Answer 1

根据您的日志的大小（假设计算不适用于一台机器，即需要“大数据”产品），我认为使用 Apache Spark 可能最合适。鉴于您对生态系统了解不多，最好使用Databricks Cloud，这将为您提供一种直接的方式从 HDFS 读取日志并以可视方式（使用笔记本）使用 Spark 转换进行分析。

您可以在上面的链接中找到此视频。
有一个免费试用版，因此您可以查看结果如何，然后再做出决定。

PS 我与 Databricks 没有任何关系。只是认为他们有一个很棒的产品，仅此而已:)