Jon*_*nar 14 mysql integration hadoop
我们希望在我们的系统上实现Hadoop以提高其性能.
这个过程是这样的:Hadoop将从MySQL数据库收集数据然后处理它.然后输出将导出回MySQL数据库.
这是一个很好的实现吗?这会改善我们系统的整体性能吗?有什么要求,以前做过吗?一个好的教程真的会有所帮助.
谢谢
Sqoop是一种用于将关系数据库中的数据导入Hadoop的工具
https://github.com/cloudera/sqoop/wiki/
以及关于它的视频http://www.cloudera.com/blog/2009/12/hadoop-world-sqoop-database-import-for-hadoop/
尽管这不是常规的 hadoop 用法。在以下情况下可能有意义:
a)如果您有很好的方法将数据分区到输入中(如现有分区)。
b) 每个分区的处理量比较重。我会给出每个分区至少 10 秒的 CPU 时间数。
如果满足这两个条件 - 您将能够应用任何所需的 CPU 功率来进行数据处理。
如果您正在进行简单的扫描或聚合 - 我认为您将不会获得任何结果。另一方面 - 如果您要在每个分区上运行一些 CPU 密集型算法 - 那么您的收益确实会很大。
我还要提到一个单独的情况 - 如果您的处理需要大量数据排序。我不认为 MySQL 擅长对数十亿条记录进行排序。Hadoop 会做到这一点。
归档时间: |
|
查看次数: |
11281 次 |
最近记录: |