如果将数据放在Azure Blob存储上,它将保留在那里,并直接从Azure存储中读取.
HDInsight群集中的数据节点有两个用途.首先,它们运行实际的计算作业,从Azure Storage Directly读取.这并不像HDFS用户那样疯狂,因为Azure的底层结构一致,可以使存储保持良好且接近计算.
其次,数据节点在其本地磁盘上运行HDFS文件系统.这通常仅用于HDInsight中的中间文件和tmp文件,因为它是暂时的(仅与集群一样长).
因此,选择数据节点的数量本质上是选择您希望能够处理多少个作业运行节点(纱线应用程序容器或作业跟踪器插槽,具体取决于版本),并在较小程度上选择您的作业有多少临时空间需要.
| 归档时间: |
|
| 查看次数: |
1238 次 |
| 最近记录: |