web*_*oss 8 logging hadoop amazon-s3 amazon-emr hadoop-streaming
我正在解析Apache,Nginx,Darwin(视频流服务器)生成的访问日志,并按日期/ referrer/useragent聚合每个交付文件的统计信息.
每小时生成大量日志,并且该数量可能在不久的将来急剧增加 - 因此通过Amazon Elastic MapReduce以分布式方式处理这类数据听起来合理.
现在我已经准备好使用映射器和缩减器来处理我的数据并使用以下流程测试整个过程:
我已经根据互联网上关于Amazon ERM的数以千计的教程手动完成了这项工作.
接下来我该怎么办?什么是自动化此过程的最佳方法?
我认为这个主题对于尝试使用Amazon Elastic MapReduce处理访问日志但无法找到好的材料和/或最佳实践的人来说非常有用.
UPD:这里只是澄清最后一个问题:
Amazon Elastic MapReduce支持的日志处理的最佳实践是什么?
相关文章:
这是一个非常非常广泛的问题,但您可以考虑以下一些想法:
希望能给你一些线索。