好的,我正在尝试学习Hadoop和mapreduce.我真的想从mapreduce开始,我发现很多很多简化的映射器和缩减器的例子等等.但是,我看到丢失的东西.
虽然显示一个单词出现次数的示例很容易理解,但它并没有真正帮助我解决任何"现实世界"的问题.有没有人知道在伪现实情况下实现mapreduce的好教程.比方说,我想在类似于Adventureworks的数据存储上使用hadoop和mapreduce.现在我想在5月份获得给定产品的订单.从hadoop/mapreduce的角度看怎么样?(我意识到这可能不是mapreduce旨在解决的问题类型,但它很快就浮现在脑海中.)
任何方向都会有所帮助
Don*_*ner 13
Hadoop:The Definitive Guide这本书是一个很好的起点.介绍性章节应该对您有用,以确定MapReduce的用途以及何时应该使用它.更高级的章节有比词数更实际的例子.
如果您想深入了解,可能需要查看使用MapReduce的数据密集型文本处理.这肯定有很多"真实世界"的用例,但听起来并不像你对文本处理感兴趣.
对于您的特定示例,要实现的主要事项是:
因此,如果您想要在5月份获得给定产品的所有记录,则可以使用仅限地图的作业来过滤所有数据,并仅保留所需的记录.但是,您真的应该阅读Hadoop有用的内容.能够更好地适应Hadoop的问题是:给我一个每月购买每件商品多少次的数量(也许是建立一个矩阵).您很少寻找像您建议的特定记录.
如果您正在寻找更实时的访问平台,一旦您完成了对Hadoop的了解,就应该查看HBase.
| 归档时间: |
|
| 查看次数: |
7430 次 |
| 最近记录: |