nip*_*una 5 hadoop hortonworks-data-platform
我的 hadoop 集群 HA 活动 namenode (host1) 突然切换到备用 namenode(host2)。我在 hadoop 日志(在任何服务器中)中找不到任何错误来确定根本原因。
切换 Namenodes 后,hdfs 日志中经常出现以下错误,并且应用程序无法读取 HDFS 文件。
2014-07-17 01:58:53,381 警告 namenode.FSNamesystem (FSNamesystem.java:getCorruptFiles(6769)) - 获取损坏的文件块返回错误:状态待机中不支持操作类别读取
一旦我重新启动新的活动节点(host2),namenode 就会切换回新的备用节点(host1)。然后集群正常工作,用户也可以检索HDFS文件。
我使用的是 Hortonworks 2.1.2.0 和 HDFS 版本 2.4.0.2.1
编辑:2014 年 7 月 21 日 当主动-备用名称节点切换发生时,在活动名称节点日志中发现以下日志
NT_SETTINGS-1675610.csv dst=null perm=null 2014-07-20 09:06:44,746 INFO FSNamesystem.audit (FSNamesystem.java:logAuditMessage(7755)) - allowed=true
ugi=storm (auth:SIMPLE) ip=/ 10.0.1.50 cmd=getfileinfo src=/user/tungsten/staging/LEAPSET/PRODUCTS/PRODUCTS-138018 6.csv dst=null perm=null 2014-07-20 09:06:44,747 INFO FSNamesystem.javait (FSNamesystem.audit) logAuditMessage(7755)) - allowed=true ugi=storm (auth:SIMPLE) ip=/10.0.1.50
cmd=getfileinfo src=/user/tungsten/staging/LEAPSET/MERCHANT_SETTINGS/MERCHA NT_SETTINGS-1695794.csv dst=null perm null 2014-07-20 09:06:44,747 INFO FSNamesystem.audit (FSNamesystem.java:logAuditMessage(7755)) - allowed=true
927 INFO ha.EditLogTailer (EditLogTailer.java:(117)) - 每 120 秒将在 hadoop-client-us-west-1b/10.0.254.10:8020 的活动节点上滚动日志。2014-07-20 09:06:44,929 INFO ha.StandbyCheckpointer (StandbyCheckpointer.java:start(129)) - 启动备用检查点线程......在 http://hadoop-client-us-west-1b 上检查活动神经网络: 50070 服务检查点位于 http://hadoop-client-us-west-1a:50070 2014-07-20 09:06:44,930 INFO ipc.Server (Server.java:run(2027)) - 8020 上的 IPC 服务器处理程序 3 , 调用 org.apache.hadoop.hdfs.protocol.ClientProtocol.getFileInfo from 10.0.1.50:57297 Call#8431877 Retry#0: org.apache.hadoop.ipc.StandbyException: Operation category READ is not supported in state standby 2014-07 -20 09:06:44,930 INFO ipc.Server (Server.java:run(2027)) - 8020 上的 IPC 服务器处理程序 16,调用 org.apache.hadoop。
编辑:2014 年 8 月 13 日 我们能够找出 namenode 切换的根本原因,namenode 收到大量文件信息请求,然后发生了 namenode 切换。
但仍然无法解决操作类别READ is not supported in state standby错误。
编辑:2014 年 12 月 7 日 我们发现,一旦先前活动的 namenode 失败,解决方案应用程序需要手动连接当前活动的 namenode。HA 模式下名称节点的流量不会自动定向到活动节点。
| 归档时间: |
|
| 查看次数: |
16417 次 |
| 最近记录: |