MySQL Cluster与Hadoop一起处理大数据

Tob*_*aar 1 hadoop hive mapreduce bigdata mysql-cluster

我想知道使用MySQL Cluster和使用Hadoop框架的优点/缺点.什么是更好的解决方案.我想看看你的意见.

我认为使用MySQL Cluster的优点是:

  1. 高可用性
  2. 良好的可扩展性
  3. 高性能/实时数据访问
  4. 你可以使用商品硬件

而且我没有看到劣势!Hadoop没有任何缺点吗?

Hadoop与Hive的优势在于:

  1. 也是很好的可扩展性
  2. 你也可以使用商品硬件
  3. 能够在异质环境中运行
  4. 使用MapReduce框架进行并行计算
  5. Hive与HiveQL

缺点是:

  1. 没有实时数据访问.分析数据可能需要几分钟或几小时.

因此,在我看来,处理大数据时MySQL集群是更好的解决方案.为什么Hadoop是处理大数据的圣杯?你有什么意见?

Ros*_*oss 5

上述两个答案都错过了mySQL和Hadoop之间的巨大差异.mySQL要求您以特定格式存储数据.它喜欢结构严重的数据 - 您在表格中声明每列的数据类型等.Hadoop根本不关心这一点.

示例 - 如果您有十亿个文本日志文件,为了使mySQL能够进行分析,您需要先将数据解析并加载到mySQL表中,然后键入每一列.使用hadoop和mapreduce,您可以定义从其原始源扫描/分析/返回数据的功能 - 您不需要预处理ETL来使其预先构建.

如果数据已经结构化并且在mySQL中 - 那么(希望)它结构良好 - 为什么要将它导出为hadoop进行分析?如果不是,为什么要花时间ETL数据呢?