使用azure blob存储时的HDInsight群集大小

Dan*_*ing 2 hadoop hive azure hdinsight

使用HDInsight并选择Azure存储Blob来存储需要计算的数据时,您仍然必须在配置新群集时选择数据节点的数量.如果您的数据存储在Azure存储Blob上,那么数据节点的数量会产生什么影响?来自blob的数据是否实际复制到数据节点上?

Sim*_*all 5

如果将数据放在Azure Blob存储上,它将保留在那里,并直接从Azure存储中读取.

HDInsight群集中的数据节点有两个用途.首先,它们运行实际的计算作业,从Azure Storage Directly读取.这并不像HDFS用户那样疯狂,因为Azure的底层结构一致,可以使存储保持良好且接近计算.

其次,数据节点在其本地磁盘上运行HDFS文件系统.这通常仅用于HDInsight中的中间文件和tmp文件,因为它是暂时的(仅与集群一样长).

因此,选择数据节点的数量本质上是选择您希望能够处理多少个作业运行节点(纱线应用程序容器或作业跟踪器插槽,具体取决于版本),并在较小程度上选择您的作业有多少临时空间需要.