在Hadoop Map Reduce中解析PDF文件

WR1*_*R10 5 pdf hadoop mapreduce pdf-parsing

我必须在Hadoop的Map Reduce程序中解析HDFS中的PDF文件.所以我从HDFS获取PDF文件作为输入拆分,它必须被解析并发送到Mapper类.为了实现这个InputFormat,我已经通过了这个链接.如何解析这些输入拆分并将其转换为文本格式?

WR1*_*R10 6

在Hadoop中处理PDF文件可以通过扩展FileInputFormat类来完成.让扩展它的类是WholeFileInputFormat.在WholeFileInputFormat类中,您将覆盖getRecordReader()方法.现在每个pdf将作为单独输入拆分接收.然后可以解析这些单独的拆分以提取文本.此链接提供了一个清楚的示例,了解如何扩展FileInputFormat.