sco上hadoop的选项有哪些?

pra*_*see 24 hadoop scala mapreduce jvm-languages bigdata

我们正在开始一个基于大数据的分析项目,我们正在考虑采用scala(类型安全堆栈).我想知道各种scala API /项目可用于做hadoop,map reduce程序.

小智 20

绝对检查Scalding.作为用户和偶尔的撰稿人,我发现它是一个非常有用的工具.Scalding API也与标准Scala集合API非常兼容.正如您可以在普通集合上调用flatMap,map或groupBy一样,您可以在烫印管道上执行相同操作,您可以将其视为分布式元组列表.还有一个API的类型版本,提供更强的类型安全保证.我没有使用Scoobi,但API看起来与它们的相似.

此外,还有一些其他好处:

  • 烫伤在Twitter的生产中被大量使用,并且已经在Twitter规模的数据集上进行了战斗测试.
  • 它在Twitter内部和外部都有几个积极的贡献者,致力于使它变得更好.
  • 它可与您现有的级联作业互操作.
  • 除了Typed API之外,它还有一个Fields API,对于R和数据框架框架的用户来说可能更为熟悉.
  • 它提供了一个强大的矩阵库.


dhg*_*dhg 8

我和Scoobi取得了成功.它很容易使用,强类型,隐藏大部分Hadoop混乱(通过做自动序列化对象的事情),以及完全Scala.我喜欢它的API的一个原因是设计人员希望Scoobi集合感觉就像标准的Scala集合一样,所以你实际上以相同的方式使用它们,除了操作在Hadoop而不是本地运行.这实际上使您在开发和测试时可以很容易地在Scoobi集合和Scala集合之间切换.

我也使用了Scrunch,它基于基于Java的Crunch.我有一段时间没用过它,但它现在是Apache的一部分.