我听说 Hadoop 的性能比 MySQL 好。到现在为止,我一直使用关系数据库,所以这对我来说真的是新技术。我有一台 6 核 PC。假设我有一个包含 20 列和 500 万行的表。Hadoop 是否为 Select、Insert 和 Update 等操作提供了更好的性能?
Hadoop 1.1 中创建表、选择、更新、插入等的等效命令是什么?
传统上,Hadoop 的用例是当您需要将数据存储拆分到数十台或更多台机器上,并且您不使用传统的 RDBMS 解决方案时。当您只有一台机器时,您可能会否定使用 Hadoop 所提供的任何潜在收益。
此外,20 列 * 500 万行被大多数 DBA 认为是一个小型数据库,除了索引查找之外,在优化方面没有多大价值,因为大多数 DBMS 会很快处理这一数量的信息。
然而,回到 Hadoop 的话题是这样的:Hadoop 是一个分布式文件系统,而不是一个彻底的数据库。Hadoop 的一个潜在用途(我非常了解)是当您拥有大量具有通用数据格式的二进制文件时,您需要对每个二进制文件运行相同的操作,或者您需要找到这些二进制文件文件很快。在这种情况下,Hadoop 实际上是 DFS 上所有文件的大型查找引擎。通过这种方式,您可以快速找到运行并行数据分析所需的文件。CERN 就是使用 Hadoop 来实现这一目标的组织之一。
当传统 RDBMS 可以很好地满足您的需求时,我不鼓励您考虑将数据转换到 Hadoop。