根据我对 hadoop 中高可用性的理解,我们需要一个名称节点和一个备用节点、网络共享存储空间(在两个名称节点之间共享)、至少 2 个数据节点来运行 hadoop 集群。
我们可以在运行名称节点的同一台机器上运行 dataNode 服务器吗?
Yarn 可以在运行 NameNode 或 dataNode 服务器的机器上运行吗?
请建议我是否缺少生产 hadoop 环境所需的任何其他服务。
名称节点的系统要求应该是什么,因为它只处理元数据(CPU 密集型的 I/O 密集型)。我们正在处理的数据主要是 I/O 密集型的。