在命令行上,我将使用pdffonts确定文件使用的字体.这运行得相当快......
pdffonts bash-manpage.pdf name type encoding emb sub uni object ID ------------------------------- ------------- --------------- --- --- --- --------- Times-Roman Type 1 Custom no no no 8 0 Times-Bold Type 1 Standard no no no 9 0 Helvetica Type 1 Custom no no no 11 0 Helvetica-Bold Type 1 Standard no no no 30 0
pdffonts scanned-book.pdf pdffonts handmade.pdf name type encoding emb sub uni object ID ------------------------------- -------------- -------------- --- --- --- ---------
示例1显示了一个包含字体名称的表.这意味着IS文本进行搜索.
示例2显示了一个空表.没有字体,没有要搜索的文本(除非你在文件上运行OCR首先嵌入任何找到的文本......但是你创建了一个不同的文件!),不要回头看看这些......
注意:要成功地实际提取嵌入的文本,因此能够搜索它是一个完全不同的问题.有很多情况下,你会发现它是非常困难的-特别是如果你在字体看到表的字体类型,如CID Type与'自定义’的编码.您可能首先要搜索stackoverflow以查询有关从PDF 文本提取的其他问题 ...
| 归档时间: |
|
| 查看次数: |
3944 次 |
| 最近记录: |