netezza如何运作?它与Hadoop相比如何?

san*_*uru 6 hadoop netezza

想了解是否Netezza或者Hadoop是用于以下目的的正确选择:

  • 从多个相当大的在线资源中提取饲料文件的时间超过GB.

  • 清理,过滤,转换和计算来自Feed的更多信息.

  • 生成不同维度的指标,类似于数据仓库多维数据集的工作方式,以及

  • 使用SQL或任何其他标准机制帮助Web应用程序更快地访问最终数据/指标.

小智 5

工作原理:
当数据加载到设备中时,它会智能地分隔108个SPU中的每个表.
通常,硬盘是计算机中最慢的部分.想象一下,其中108个一次旋转,加载一小块桌子.这就是Netezza如何实现每小时500千兆的加载时间.
在将一张表加载并存储在每个SPU(集成电路卡上的计算机)上之后,对每列进行分析以获得描述性统计,例如最小值和最大值.这些值存储在108个SPU中的每一个上,而不是索引,这需要时间来创建,更新和占用不必要的空间.
想象您的环境,而无需创建索引.当需要查询数据时,设备内部的主计算机会查询SPU以查看哪些包含所需数据.
只有包含适当数据的SPU才会返回信息,因此通过网络向Business Intelligence/Analytics Server移动的信息较少.对于加入数据,它会变得更好.
设备通过密钥在多个SPU中的多个表中分发数据.每个SPU包含多个表的部分数据.它在每个SPU上本地连接每个表的部分,仅返回本地结果.所有"本地结果"都在内部组装在机柜中,然后作为查询结果返回到商业智能/分析服务器.这种方法也有助于提高速度.
所有这一切的关键是"通过网络减少数据移动".设备仅在组织的1000/100 MB网络中将所需数据返回到Business Intelligence/Analytics服务器.
这与商业智能/分析软件通常从数据库中提取大部分数据以在其自己的服务器上进行处理的传统处理非常不同.数据库负责确定所需的数据,将较小的子集结果返回到Business Intelligence/Analytics服务器.
备份和冗余
要了解数据和系统如何设置几乎100%的正常运行时间,了解内部设计非常重要.它使用每个400千兆字节磁盘的外部,最快,三分之一部分进行数据存储和检索.三分之一的磁盘存储描述性统计信息,另外三分之一存储备份其他SPU的热数据.每个设备机柜还包含4个额外的SPU,用于自动故障切换108个SPU中的任何一个.
来自http://www2.sas.com