仅在Hadoop集群中的特定节点上存储HDFS数据

Question

我们有30个节点的生产集群。我们要添加5个数据节点以进行额外的存储，以处理数据的临时峰值（大约2 TB）。该数据将被临时存储，我们希望在15天后删除它。

是否可以确保传入的临时数据（2 TB）仅存储在新添加的数据节点上？

我正在寻找类似于YARN节点标签的内容。

先感谢您。

Answer 1

不幸的是我不知道在同一个 HDFS 集群中实现这一点的简单方法。但我认为您可以通过实施自定义“块放置策略”来实现此行为。然而，执行此任务可能存在一定风险且复杂。

这是 HDFS jira 票证，其中定义/添加了此功能，允许您自定义此策略 ( JIRA TICKET )。

如果您想自定义它，您可以在此处阅读选择 datanode 的当前行为，以便更好地了解您：链接 1

此外，您还可以在这里找到一篇包含多个参考文献的帖子，这些参考文献对于如何实施自定义策略及其风险很有用：帖子

如果你想采取这种方式，我推荐的其他读物：

这是一篇关于使用自定义块放置策略在 SSD 或 HDD（混合集群）中放置副本的实验的好论文：论文

我认为如果可能的话，使用第二个集群会更简单。例如，您可以评估使用命名空间来引用每个集群的 ViewFS：

问候，