Hadoop和MySQL集成

Question

Hadoop和MySQL集成

Jon*_*nar 14 mysql integration hadoop

我们希望在我们的系统上实现Hadoop以提高其性能.

这个过程是这样的:Hadoop将从MySQL数据库收集数据然后处理它.然后输出将导出回MySQL数据库.

这是一个很好的实现吗？这会改善我们系统的整体性能吗？有什么要求,以前做过吗？一个好的教程真的会有所帮助.

谢谢

Answer 1

Joe*_*ein 5

Sqoop是一种用于将关系数据库中的数据导入Hadoop的工具

https://github.com/cloudera/sqoop/wiki/

以及关于它的视频http://www.cloudera.com/blog/2009/12/hadoop-world-sqoop-database-import-for-hadoop/

Answer 2

Dav*_*man 1

尽管这不是常规的 hadoop 用法。在以下情况下可能有意义：
a）如果您有很好的方法将数据分区到输入中（如现有分区）。
b) 每个分区的处理量比较重。我会给出每个分区至少 10 秒的 CPU 时间数。
如果满足这两个条件 - 您将能够应用任何所需的 CPU 功率来进行数据处理。
如果您正在进行简单的扫描或聚合 - 我认为您将不会获得任何结果。另一方面 - 如果您要在每个分区上运行一些 CPU 密集型算法 - 那么您的收益确实会很大。
我还要提到一个单独的情况 - 如果您的处理需要大量数据排序。我不认为 MySQL 擅长对数十亿条记录进行排序。Hadoop 会做到这一点。

归档时间：	15 年前
查看次数：	11281 次
最近记录：	12 年，9 月前