当我尝试从我的PDF文件中提取文本时,它似乎在随机插入单词之间插入空格.
我在本页下载部分的以下示例文件中使用了pdfbox-app-1.6.0.jar(最新版本):http: //www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian -训练
我已经尝试了几个其他PDF文件,它似乎在几个页面上做同样的事情.
我做以下事情:
java -jar pdfbox-app-1.6.0.jar ExtractText -force -console~/Desktop/ped training pdf.pdf
在下载的文件中,您将看到以下空格错误地插入到控制台上的结果中:"•如果儿童能够安全地走到学校,这可以减少拥堵."
"•为以后的生活发展良好的习惯."
"www.sheff ield.gov.uk"
"提前考虑!,这是基于"
等等
正如你所看到的,上面的几个单词之间有空格,我无法理解.
我在ubuntu上运行Sun的JDK 1.6.
我已经在几个不同的PDF文件上尝试了这个,并试图在论坛上搜索解决方案,有类似的错误,但似乎都已解决.
任何帮助或如果其他人有相同的问题请评论.这对于正确索引内容以进行搜索造成了很大的问题.