nosql:MongoDB、Cassandra 或数据仓库的替代方案

edd*_*yan 3 database mongodb cassandra nosql

我在是否使用 MongoDB 或 Cassandra 来满足我的数据库需求的具体决定之间犹豫不决,并希望对我的用例进行输入以指导我的决定。

要求:

数据源

  • X 个数据中心包含 Y 个服务器。
  • 每个服务器有 N 个网络和 M 个统计信息。

例如目前(3 个数据中心、50 个服务器、19 个网络和 10 个统计数据)。这些数字会随着时间的推移而增加。

数据获取:

  • 每小时为每个服务器解析一个 xml 页面(~20kb / 页)。(~25mb/天)

数据存储:

  • 使用聚合来组织(每小时、每天、每月)结构以找到更高的值(小时 -> 天)

注意:我们需要具备以下能力:

  • 动态添加/删除值(数据中心/服务器/网络/统计)和可扩展性是一个关键问题,因此我们正在从 SQL 转向 NoSQL。
  • 可靠性也是一个高优先级(主/从,无损坏)并且需要“简单”的可维护性。
  • 写作是每小时,不需要“大规模”的写作表现。

用例示例:在前端,您将像这样查询,选择;日期窗口、期间报告、特定数据中心、特定/所有网络、特定/所有统计数据以及结果是跨服务器总计还是单独。

Example #1

 - From: August 16th 2012 -> April 16th 2013
 - Period: Daily
 - Data-center: EU A
 - Stat-type: Error
 - Servers: All
Run Code Online (Sandbox Code Playgroud)

通过阅读堆栈溢出和网络上的类似文章,我得出的结论是,我最好的选择可能是 MongoDB,因为它具有灵活的查询和与关系数据库的接近度。如果我的写作量更大,Cassandra 似乎是一个选择——尽管我确实喜欢基于列的模型。我是数据库设计和管理的新手,因此易用性也是一个因素(仍然是 CS 学生)。

从我的用例中哪个 NoSql 数据库是最好的选择?

LMe*_*yer 5

你几乎把它钉在了你的结论中。要下定决心,您主要必须在每个 DB 的特权之间进行选择,即:

卡桑德拉

  • 更好的可用性(master/master 所以没有 SPOF)
  • 更好的可扩展性:(线性,弹性)
  • 更好的写入性能

MongoDB

  • 更好的查询(API 和本机全文搜索)
  • 易用性(各种 API、XML/JSON...)

我猜一致性不是什么大问题,无论如何它们最终都是一致的。即使 MongoDB 可能更容易上手(更接近关系数据模型),Cassandra 也不是那么难,您只需要了解面向列的范式。无论如何,从技术角度来看,我想答案取决于您希望系统的规模如何增长以及您的请求是否会发展。