jav*_*thu 5 hadoop data-storage hdfs hortonworks-data-platform
我们有30个节点的生产集群。我们要添加5个数据节点以进行额外的存储,以处理数据的临时峰值(大约2 TB)。该数据将被临时存储,我们希望在15天后删除它。
是否可以确保传入的临时数据(2 TB)仅存储在新添加的数据节点上?
我正在寻找类似于YARN节点标签的内容。
先感谢您。
不幸的是我不知道在同一个 HDFS 集群中实现这一点的简单方法。但我认为您可以通过实施自定义“块放置策略”来实现此行为。然而,执行此任务可能存在一定风险且复杂。
这是 HDFS jira 票证,其中定义/添加了此功能,允许您自定义此策略 ( JIRA TICKET )。
如果您想自定义它,您可以在此处阅读选择 datanode 的当前行为,以便更好地了解您: 链接 1
此外,您还可以在这里找到一篇包含多个参考文献的帖子,这些参考文献对于如何实施自定义策略及其风险很有用: 帖子
如果你想采取这种方式,我推荐的其他读物:
这是一篇关于使用自定义块放置策略在 SSD 或 HDD(混合集群)中放置副本的实验的好论文: 论文
我认为如果可能的话,使用第二个集群会更简单。例如,您可以评估使用命名空间来引用每个集群的 ViewFS:
问候,
归档时间: |
|
查看次数: |
92 次 |
最近记录: |