Nic*_*icy 14 .net linq apache hadoop
我的问题是关于.Net中的BigData.BigData用于存储和查询大量数据(Facebook,Google,Twitter,...).BigData的例子是MapReduce,Hadoop,Dryad,......
微软放弃他们的Dryad(DryadLinq)替代Hadoop(Dryad和文章),所以我想为它做好准备以及与之有关的一切.
什么现在可用?
SQL Server 2012 RC(不要在生产中使用:))
有关发布和开发的更多信息?
问题1:我应该如何了解Hadoop并非.Net平台独有的?(如何查询,特定模式,架构......)并且将是有用的(在.net环境中)
问题2:.Net平台上有关Hadoop的更多信息,我已经知道了吗?
Sam*_*us_ 10
这是一个模糊的问题,所以这里有一个模糊的答案:)
Hadoop本身就是一个在集群中运行map-reduce作业的工具,它针对性能进行了高度优化,并且通过以一种易于使用而不会产生I/O的方式分发数据来完成大量此类优化.处罚.
为此,您应该阅读有关HDFS和内部解释如何完成的内容,简而言之,输入数据在节点中聚集在一起以在本地运行进程并按顺序读取(这是HDFS的属性/限制) .
通过这种方式,您可以输入"BigData",并在集群内部以最有效的方式进行拆分和处理.
现在,除了Hadoop本身之外,还有一些工具可以在其上工作,允许您对数据执行高级抽象(map-reduce是最简单的过程之一).
那些包括:
.Net的细节
对于Azure上的Hadoop(.Net),这里有msdn的介绍,这里有更多信息.与通过其平台构建Hadoop应用程序相关.它现在只是CTP,但当然这会改变.
下面是关于另一个很好的博客帖子的Hadoop和MapReduce与代码
此外,还有一家公司经常提供有关Hadoop的信息:Cloudera,您应该经常查看那里以获取更多信息.有关更多信息,请查看上面链接的cloudera页面,您可以查看有关Hadoop的所有概念(虽然它非常先进)
我很确定这不是你想要的,但我不知道你想要什么,所以至少我希望你能检查一些可能有用的新项目.
还检查Storm:https://github.com/nathanmarz/storm它与Hadoop无关,但适用于Hadoop不适合的实时场景.
归档时间: |
|
查看次数: |
7294 次 |
最近记录: |