我必须在Hadoop的Map Reduce程序中解析HDFS中的PDF文件.所以我从HDFS获取PDF文件作为输入拆分,它必须被解析并发送到Mapper类.为了实现这个InputFormat,我已经通过了这个链接.如何解析这些输入拆分并将其转换为文本格式?
pdf hadoop mapreduce pdf-parsing
hadoop ×1
mapreduce ×1
pdf ×1
pdf-parsing ×1