在Hadoop中搜索/查找文件和文件内容

leo*_*eon 16 filesystems distributed hadoop file distributed-computing

我目前正在使用Hadoop DFS开展项目.

  1. 我注意到Hadoop Shell中没有搜索或查找命令.有没有办法在Hadoop DFS中搜索和查找文件(例如testfile.doc)?

  2. Hadoop是否支持文件内容搜索?如果是这样,怎么办?例如,我有许多存储在HDFS中的Word Doc文件,我想列出哪些文件中包含"计算机科学"字样.

在其他分布式文件系统中呢?文件内容搜索是分布式文件系统的软肋吗?

ajd*_*574 42

  1. 你可以这样做:hdfs dfs -ls -R / | grep [search_term].
  2. 听起来MapReduce工作可能适合这里.是类似东西,但对于文本文件.但是,如果这些文档很小,您可能会遇到效率低下的问题.基本上,每个文件将分配给一个地图任务.如果文件很小,则与处理文件所需的时间相比,设置映射任务的开销可能很大.