Ank*_*pta 7 storage distributed couchdb logfiles mongodb
作为我工作的一部分,我们每年获得大约25TB的日志文件,目前它是通过基于NFS的文件系统保存的.一些存档如zipped/tar.gz,而其他存档为纯文本格式.
我正在寻找使用基于NFS的系统的替代方案.我查看了MongoDB,CouchDB.它们是面向文档的数据库这一事实似乎使它成为合适的选择.但是,日志文件内容需要更改为JSON才能存储到数据库中.我不愿意做的事.我需要按原样保留日志文件内容.
至于用法,我们打算放置一个小的REST API,允许人们获取文件列表,最新文件和获取文件的能力.
提出的解决方案/想法需要是应用程序级别的某种形式的分布式数据库或文件系统,其中可以存储日志文件并且可以通过添加更多机器来有效地水平扩展.
ANKUR
看一下Vertica,一个支持并行处理和快速查询的列式数据库。Comcast 使用它来分析大约 15GB/天的 SNMP 数据,使用五台四核 HP Proliant 服务器以每秒 46,000 个样本的平均速率运行。几周前,我听到康卡斯特的一些运营人员对 Vertica 赞不绝口;他们仍然非常喜欢它。它有一些很好的数据压缩技术和“k-安全冗余”,因此它们可以省去 SAN。
更新:可扩展分析数据库方法的主要优点之一是您可以对日志进行一些非常复杂的、准实时的查询。这对于您的运营团队来说可能非常有价值。
| 归档时间: |
|
| 查看次数: |
6294 次 |
| 最近记录: |