相关疑难解决方法(0)

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+51 (51) in font AUDQZE+OpenSans-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font HCUDUN+DroidSerif-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font AUDQZE+OpenSans-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+55 …

Run Code Online (Sandbox Code Playgroud)

unicode parsing pdf-parsing pdfbox apache-tika

exe*_*nza

2020 08-11

6
推荐指数

0
解决办法

4960
查看次数

以编程方式从PDF文件中翻录文本(手动) - 缺少一些文本

注意:我对使用解析库不感兴趣.这是我自己的娱乐.

我一直在尝试从PDF文件中翻录文本以获取搜索小发明,但我无法从某些pdf文件中提取文本.

请注意,这比直接解析更容易解决问题; 我不在乎我是否无意中在输出中包含了一些垃圾,我也不在乎文件的格式是否完整.我甚至不在乎这些话是否按顺序出现.

作为第一步,我使用此项目中的策略创建了一个非常简单的pdf解析器.基本上,它所做的只是搜索zlib流的pdf文件,缩小它们,并拉出它在括号中找到的任何文本.这无法解析卡在<< >>块内部的数据,但我的理解是这是针对十六进制编码的数据blob,这似乎不在我无法解析的测试文件中......或者至少我不知道看不到他们.

同样,虽然PDFMiner和PDFBox成功,但iText.Net也失败了.然而,后两个项目有太多的间接层,很容易检查; 我很难弄清楚他们到底在做什么,部分原因是因为我并没有真正使用任何一种语言来习惯于以任何重要的方式调试它.

我的目标是创建一个文本ripper从pdf文件中抓取文本,尽可能不了解pdf格式本身(例如我的测试解析器从括号中抓取文本,但不知道它正在检查的pdf的哪个部分是标题).

language-agnostic pdf parsing

Bri*_*ian

2013 08-07

4
推荐指数

1
解决办法

2781
查看次数