标签: hadoop2

当 Yarn 中的资源管理器 (RM) 出现故障时会发生什么?

当 Yarn 中的资源管理器 (RM) 出现故障时会发生什么?

在运行作业的过程中,如果资源管理器宕机,那么作业会发生什么?

作业是自动提交还是我们需要再次提交作业?

谢谢,

文卡特

hadoop high-availability hadoop-yarn hadoop2

4
推荐指数
1
解决办法
5306
查看次数

reduce任务和reducer之间的区别

“reducer 与reduce 任务不同。reducer 可以运行多个reduce 任务”。有人可以用下面的例子解释一下吗?

foo.txt:亲爱的,这是 foo 文件 bar.txt:这是 bar 文件

我正在使用 2 个减速器。什么是reduce任务以及reducer中基于什么生成多个reduce任务?

hadoop mapreduce bigdata reducers hadoop2

4
推荐指数
1
解决办法
1958
查看次数

fs.rename(新路径(rawFileName),新路径(processFileName))不起作用

我正在研究基于 Scala 的 Apache Spark 实现,用于将数据从远程位置加载到 HDFS,然后将数据从 HDFS 摄取到 Hive 表。

使用我的第一个 Spark 作业,我已将数据/文件加载到 HDFS 中的某个位置 -

hdfs://sandbox.hortonworks.com:8020/data/analytics/raw/ 文件夹

让我们考虑一下,在加入 CT_Click_Basic.csv 和 CT_Click_Basic1.csv.gz 文件后,我在 HDFS 中有以下文件 [共享位置的文件名将是此处的文件夹名称,其内容将出现在部分 xxxxx 文件中]:

[root@sandbox ~]# hdfs dfs -ls /data/analytics/raw/*/ 找到 3 项

-rw-r--r-- 3 chauhan.bhupesh hdfs 0 2017-07-27 15:02 /data/analytics/raw/CT_Click_Basic.csv/_SUCCESS

-rw-r--r-- 3 chauhan.bhupesh hdfs 8383 2017-07-27 15:02 /data/analytics/raw/CT_Click_Basic.csv/part-00000

-rw-r--r-- 3 chauhan.bhupesh hdfs 8395 2017-07-27 15:02 /data/analytics/raw/CT_Click_Basic.csv/part-00001

找到 2 件商品

-rw-r--r-- 3 chauhan.bhupesh hdfs 0 2017-07-27 15:02 /data/analytics/raw/CT_Click_Basic1.csv.gz/_SUCCESS

-rw-r--r-- 3 chauhan.bhupesh hdfs 16588 2017-07-27 15:02 …

hadoop hadoop-partitioning apache-spark hadoop2 apache-spark-sql

4
推荐指数
1
解决办法
5102
查看次数

知道hadoop中数据节点的磁盘空间吗?

有没有一种方法或任何命令可以让我了解每个数据节点的磁盘空间或总集群磁盘空间?

我尝试了命令

dfs -du -h /
Run Code Online (Sandbox Code Playgroud)

但似乎我没有权限对许多目录执行它,因此无法获取实际的磁盘空间。

hadoop hdfs hadoop-yarn webhdfs hadoop2

4
推荐指数
1
解决办法
1万
查看次数

toLocalIterator 是如何工作的?

我试图了解如何toLocalIterator工作,我读了一些帖子和博客,但是我不确定一件事。

它是否一次将所有分区复制到驱动程序节点并创建迭代器?或者它一次复制一个分区的数据,然后创建一个迭代器?

hadoop apache-spark hadoop2 pyspark

4
推荐指数
1
解决办法
1864
查看次数

Hadoop HDFS:垃圾箱位置

何时何地HDFS创建.Trash文件夹?

是否有任何规则或逻辑,任何参考?

hadoop hdfs hadoop2

4
推荐指数
2
解决办法
1万
查看次数

org.apache.hadoop.fs.ParentNotDirectoryException:/tmp(不是目录)

我是 Hadoop 新手,正在运行 wordCount2 示例。但是我遇到了以下错误

Exception in thread "main" org.apache.hadoop.fs.ParentNotDirectoryException: /tmp (is not a directory)
        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkIsDirectory(FSPermissionChecker.java:570)
        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkSimpleTraverse(FSPermissionChecker.java:562)
        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkTraverse(FSPermissionChecker.java:537)
        at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkTraverse(FSDirectory.java:1702)
        at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkTraverse(FSDirectory.java:1720)
        at org.apache.hadoop.hdfs.server.namenode.FSDirectory.resolvePath(FSDirectory.java:641)
        at org.apache.hadoop.hdfs.server.namenode.FSDirMkdirOp.mkdirs(FSDirMkdirOp.java:51)
        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirs(FSNamesystem.java:2990)
        at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.mkdirs(NameNodeRpcServer.java:1096)
        at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.mkdirs(ClientNamenodeProtocolServerSideTranslatorPB.java:652)
        at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
        at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:503)
        at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:989)
        at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:871)
        at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:817)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1893)
        at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2606)

        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
        at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:121)
        at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:88)
        at org.apache.hadoop.hdfs.DFSClient.primitiveMkdir(DFSClient.java:2474)
        at org.apache.hadoop.hdfs.DFSClient.mkdirs(DFSClient.java:2447)
        at org.apache.hadoop.hdfs.DistributedFileSystem$27.doCall(DistributedFileSystem.java:1248)
        at org.apache.hadoop.hdfs.DistributedFileSystem$27.doCall(DistributedFileSystem.java:1245)
        at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
        at org.apache.hadoop.hdfs.DistributedFileSystem.mkdirsInternal(DistributedFileSystem.java:1245)
        at …
Run Code Online (Sandbox Code Playgroud)

hadoop hadoop2

4
推荐指数
1
解决办法
2345
查看次数

Hadoop gen1 vs Hadoop gen2

我对Hadoop-2.x中tasktracker的位置感到有点困惑.

Hadoop-1.x中的守护进程namenode, datanode, jobtracker, taskracker and secondarynamenode

Hadoop-2.x中的守护进程namenode, datanode, resourcemanager, applicationmaster, secondarynamenode.

这意味着 Jobtracker has split up into: resourcemanager and applicationmaster

那么在哪里tasktracker

hadoop mapreduce hadoop-yarn hadoop2

3
推荐指数
2
解决办法
2762
查看次数

如何在Hadoop 2中更改用户日志的日志级别?

我一直在尝试更改用户日志上的日志级别,即/var/log/hadoop-yarn/userlogs/application_<id>/container_<id>CDH 5.2.1上显示的文件.但是,无论我尝试什么,都只会INFO显示级别日志.我想启用TRACE级别日志进行调试.

到目前为止我尝试过的事情:

  • 将所有记录器设置为TRACE级别/etc/hadoop/conf/log4j.properties.
  • 设置mapreduce.map.log.levelmapreduce.reduce.log.levelmapred-site.xml.
  • 在提交之前设置mapreduce.map.log.levelmapreduce.reduce.log.level在作业配置中.
  • log4j.properties在我的作业jar文件中包含一个将根Log4j记录器设置为TRACE的文件.
  • 修改yarn-env.sh以指定YARN_ROOT_LOGGER=TRACE,console

这些都没有奏效 - 它们没有破坏任何东西,但它们对userlogs目录下的日志输出没有任何影响.修改yarn-env.sh 确实导致ResourceManager和NodeManager日志进入跟踪级别.不幸的是,这些对我的目的没用.

我出现以下错误/var/log/hadoop-yarn/userlogs/application_<id>/container_<id>/stderr可能是相关的.

SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/lib/zookeeper/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/tmp/hadoop-yarn/nm-local-dir/usercache/tomcat/appcache/application_1419961570089_0001/filecache/10/job.jar/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
log4j:WARN No appenders could be found for logger (org.apache.hadoop.ipc.Server).
log4j:WARN …
Run Code Online (Sandbox Code Playgroud)

java logging hadoop log4j hadoop2

3
推荐指数
1
解决办法
7961
查看次数

org.apache.spark.rpc.RpcTimeoutException:期货在[120秒]后超时。此超时由spark.rpc.lookupTimeout控制

在向YARN提交Spark应用程序时,遇到有关容器的以下错误。HADOOP(2.7.3)/ SPARK(2.1)环境正在单节点群集中运行伪分布式模式。当使该应用程序在本地模型中运行时,该应用程序完美运行,但是尝试使用YARN作为RM在集群模式下检查其正确性并遇到障碍。因此,这个世界是新手,因此需要帮助。

---应用日志

2017-04-11 07:13:28 INFO  Client:58 - Submitting application 1 to ResourceManager
2017-04-11 07:13:28 INFO  YarnClientImpl:174 - Submitted application application_1491909036583_0001 to ResourceManager at /0.0.0.0:8032
2017-04-11 07:13:29 INFO  Client:58 - Application report for application_1491909036583_0001 (state: ACCEPTED)
2017-04-11 07:13:29 INFO  Client:58 - 
     client token: N/A
     diagnostics: N/A
     ApplicationMaster host: N/A
     ApplicationMaster RPC port: -1
     queue: default
     start time: 1491909208425
     final status: UNDEFINED
     tracking URL: http://ip-xxx.xx.xx.xxx:8088/proxy/application_1491909036583_0001/
     user: xxxx
2017-04-11 07:13:30 INFO  Client:58 - Application report for application_1491909036583_0001 (state: ACCEPTED)
2017-04-11 07:13:31 INFO …
Run Code Online (Sandbox Code Playgroud)

hadoop-yarn apache-spark hadoop2 apache-spark-sql

3
推荐指数
1
解决办法
1万
查看次数