哪里可以找到有关Mapreduce中文件系统计数器的信息

His*_*eer 4 hadoop mapreduce

在运行mapreduce作业时,我得到一个这样的输出:

 11/09/15 21:35:16 INFO mapreduce.Job: Counters: 24
 File System Counters
 FILE: Number of bytes read=255967
 FILE: Number of bytes written=397273
 FILE: Number of read operations=0
 FILE: Number of large read operations=0
 FILE: Number of write operations=0
 Map-Reduce Framework
 Map input records=5
 Map output records=5
 Map output bytes=45
 .......
Run Code Online (Sandbox Code Playgroud)

在第一行中,它表示计数器:24.我在哪里可以找到有关这些计数器的更多信息.

我最感兴趣的是大型读操作= 0,这些是什么?
如果有人对此有任何了解或参考,请回复.

谢谢.

Cha*_*guy 5

我建议你看一下Tom White的Hadoop书,特别是第8.1章,他给出了一个详细的计数器列表及其含义.你可以在这里找到一个在线版本.

对于大型读取操作,它对应于大型文件系统读取操作的数量,例如大型目录下的列表文件.它是在HADOOP-6859中引入的,其中描述如下:在文件系统上,除了大型目录的listFiles之外,大多数操作都很小.在HDFS中引入了迭代listFiles,将单个大型操作分解为更小的步骤.当列出大型目录下的文件时,对于listFiles的每次迭代,此计数器都会递增.

这张票还解释了一些其他新柜台:

  • 读取操作 - 读取操作的数量,例如listStatus,getFileBlockLocations,open等.
  • write operations - 写入操作的数量,例如create,append,setPermission等.

我劝你看看FileSystem.Statistics,详细介绍一些额外的文件系统柜的描述类在这里