.Net和Hadoop - 知道/学习什么,有什么可用?

Nic*_*icy 14 .net linq apache hadoop

信息

我的问题是关于.Net中的BigData.BigData用于存储和查询大量数据(Facebook,Google,Twitter,...).BigData的例子是MapReduce,Hadoop,Dryad,......

微软放弃他们的Dryad(DryadLinq)替代Hadoop(Dryad文章),所以我想为它做好准备以及与之有关的一切.

我所知道的

什么现在可用?

Hadoop连接器

SQL Server 2012 RC(不要在生产中使用:))

Microsoft有关大数据的信息

有关发布和开发的更多信息?

在TechPreview上注册

问题

问题1:我应该如何了解Hadoop并非.Net平台独有的?(如何查询,特定模式,架构......)并且将是有用的(在.net环境中)

问题2:.Net平台上有关Hadoop的更多信息,我已经知道了吗?

Sam*_*us_ 10

这是一个模糊的问题,所以这里有一个模糊的答案:)

Hadoop本身就是一个在集群中运行map-reduce作业的工具,它针对性能进行了高度优化,并且通过以一种易于使用而不会产生I/O的方式分发数据来完成大量此类优化.处罚.

为此,您应该阅读有关HDFS和内部解释如何完成的内容,简而言之,输入数据在节点中聚集在一起以在本地运行进程并按顺序读取(这是HDFS的属性/限制) .

通过这种方式,您可以输入"BigData",并在集群内部以最有效的方式进行拆分和处理.

现在,除了Hadoop本身之外,还有一些工具可以在其上工作,允许您对数据执行高级抽象(map-reduce是最简单的过程之一).

那些包括:

.Net的细节

对于Azure上的Hadoop(.Net),这里有msdn的介绍,这里有更多信息.与通过其平台构建Hadoop应用程序相关.它现在只是CTP,但当然这会改变.

下面是关于另一个很好的博客帖子的Hadoop和MapReduce代码

此外,还有一家公司经常提供有关Hadoop的信息:Cloudera,您应该经常查看那里以获取更多信息.有关更多信息,请查看上面链接的cloudera页面,您可以查看有关Hadoop的所有概念(虽然它非常先进)

我很确定这不是你想要的,但我不知道你想要什么,所以至少我希望你能检查一些可能有用的新项目.

还检查Storm:https://github.com/nathanmarz/storm它与Hadoop无关,但适用于Hadoop不适合的实时场景.