abc*_*abc 3 hadoop mapreduce flume apache-spark apache-storm
我必须使用Hadoop 相关工具分析存储在生产服务器上的 Gzip 压缩日志文件。
我无法决定如何做到这一点,以及使用什么,以下是我考虑使用的一些方法(随意推荐其他方法):
在我做任何事情之前,我需要从生产服务器获取压缩文件并处理它们,然后将它们推送到Apache HBase
根据您的日志的大小(假设计算不适用于一台机器,即需要“大数据”产品),我认为使用 Apache Spark 可能最合适。鉴于您对生态系统了解不多,最好使用Databricks Cloud,这将为您提供一种直接的方式从 HDFS 读取日志并以可视方式(使用笔记本)使用 Spark 转换进行分析。
您可以在上面的链接中找到此视频。
有一个免费试用版,因此您可以查看结果如何,然后再做出决定。
PS 我与 Databricks 没有任何关系。只是认为他们有一个很棒的产品,仅此而已:)
| 归档时间: |
|
| 查看次数: |
3449 次 |
| 最近记录: |