相关疑难解决方法(0)

PDFBox在单词中添加空格

当我尝试从我的PDF文件中提取文本时,它似乎在随机插入单词之间插入空格.

我在本页下载部分的以下示例文件中使用了pdfbox-app-1.6.0.jar(最新版本):http: //www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian -训练

我已经尝试了几个其他PDF文件,它似乎在几个页面上做同样的事情.

我做以下事情:

java -jar pdfbox-app-1.6.0.jar ExtractText -force -console~/Desktop/ped training pdf.pdf

在下载的文件中,您将看到以下空格错误地插入到控制台上的结果中:"•如果儿童能够安全地走到学校,这可以减少拥堵."

"•为以后的生活发展良好的习惯."

"www.sheff ield.gov.uk"

"提前考虑!,这是基于"

等等

正如你所看到的,上面的几个单词之间有空格,我无法理解.

我在ubuntu上运行Sun的JDK 1.6.

我已经在几个不同的PDF文件上尝试了这个,并试图在论坛上搜索解决方案,有类似的错误,但似乎都已解决.

任何帮助或如果其他人有相同的问题请评论.这对于正确索引内容以进行搜索造成了很大的问题.

lucene solr pdfbox apache-tika

12
推荐指数
2
解决办法
3422
查看次数

标签 统计

apache-tika ×1

lucene ×1

pdfbox ×1

solr ×1