100 TB 容量数据库 - 资源和时间估计

Kas*_*ash 10 oracle data-warehouse database-recommendation

我正在为 100TB 报告数据库设置进行“信封背面”计算。我正在向这里的专家寻求想法。建议环境:

  1. 存储容量 ~ 100TB
  2. 表 ~ 200,大小从 1GB 到 5TB。平均大小可能介于 100GB-200GB 之间
  3. ETL - 作业可能需要在数百万行的 10 个表之间进行连接,连接键的范围从 10 字节到 500 字节。此类连接应在 2-5 分钟内完成
  4. 实时选择 - 最初,只对选择的速度感兴趣。应该支持 500 次选择/秒。更新/秒将是相对较小的数字,在本练习中可以忽略。
  5. 需要 24x7 的可用性。应该有 2 个独立的数据库服务器来服务选择调用(复制数据)。

问题:

  1. 目前,我在看Oracle。您对大型数据库的其他商业(或)开源解决方案的体验如何?
  2. 您认为哪种硬件操作系统效果最好?我计划在戴尔上安装 Linux。
  3. 网络存储(例如 NetApp)是必须的吗?您预见使用商用现货磁盘会出现哪些问题?
  4. 一旦硬件和操作系统准备就绪,您将留出多少时间来设置、配置数据库、存储等。
  5. 在您观察到的环境中,什么样的团队组合效果最好?我的意思是,管理和操作此类设置所需的各种管理员(OS 管理员、Oracle DB 管理员?)。实现 24x7 正常运行时间可能需要多少个。
  6. 数据库许可证、网络存储成本的任何近似值/范围。

我知道我没有所有的环境细节。我不是在寻找确切的细节,一个近似值就足够了。虽然有些问题可能最好由经理回答,但我对管理员的观点很感兴趣。我感谢您的意见。

Con*_*lls 21

第一印象

  1. 根据您的性能要求,100TB 是一个相当大的数据量。如果您想要 Oracle,您应该查看他们的 Exadata 系统。此外,请查看 Netezza 或 Teradata 的产品。有了这么多的选择,您可能想要查看基于 OLAP 的前端或至少相当积极地使用物化视图和查询重写。您不会从任何事情中获得 500 次表扫描/秒。

    对于延迟要求不那么严格的东西,您可能需要考虑更多的数据集市来为您的用户社区提供报告能力。在这种情况下,SQL Server 和 SSAS 可能是数据集市的一个选项,因为在大量服务器上的许可比尝试使用 Oracle 做同样的事情便宜。

  2. 见(1)。共享磁盘架构上的传统硬件在这种大小的数据集上可能会很慢。

  3. 不!如果有人建议 NFS 给他们一个很好的踢。直接连接存储或具有许多中端控制器的多控制器 SAN。想想可能有几十个 MD3000 系列控制器或类似的东西——如果你不去专门构建的“大数据”平台。

  4. 找一位在 PB 范围数据仓库平台方面有经验的存储专家。如果您必须满足严格的 SLA,您可能需要从事一项重要的 ETL 开发工作,以及大量的测试工作。

  5. 在最好的时候,数据仓库上的 24x7 是雄心勃勃的。这是一个运营报告平台吗?也许您可以详细说明一下您的要求。

  6. 括约肌褶皱昂贵,取决于您的性能要求。上次我看到(几年前)Netezza 曾经为 TwinFin 系统报价 20,000 美元/TB,100TB 的平台加上冗余服务器和备份硬件的成本使您的平台价值 200 万美元。我相信,Exadata 会便宜一点,但我没有任何定价。

    查看 Netezza、Exadata 和 Teradata 平台以进行比较,以及 Ab Initio 作为 ETL 工具的成本计算。

这是一组相当激进的要求 - 通常不会在数据仓库上实现 24x7,并且数据量大到足以让您进入“大数据”平台的领域。如果您有运营报告要求,那么您应该仔细查看它是什么。将其与您的分析分开,除非您有特定原因(例如低延迟市场数据馈送)不这样做。在同一平台上混合操作和分析需求是糟糕的魔力。

我认为您确实需要请专家来评估您的要求。如果没有仔细研究您正在努力实现的目标,我只能给出一些关于该做什么或不该做什么的经验建议。


mrd*_*nny 8

处理此类海量数据时需要考虑的其他一些选项包括:

  1. @ConcernedOfTunbridgeWells 发布的所有内容
  2. EMC 的 Greenplum
  3. Microsoft 的并行数据仓库

不要计划在任何地方节省硬件成本。具有这些规格的系统将花费您一些大钱。