相关疑难解决方法(0)

如何从PDF中提取文本？

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗？我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xml或json格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)？

pdf text text-extraction ghostscript extraction

Bud*_*007

2013 03-10

141
推荐指数

10
解决办法

23万
查看次数

用于IndirectObject提取的pyPdf

按照这个例子,我可以将所有元素列入pdf文件

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects

Run Code Online (Sandbox Code Playgroud)

现在,我需要从pdf文件中提取非标准对象.

我的对象是名为MYOBJECT的对象,它是一个字符串.

由关注我的python脚本打印的作品是:

{'/MYOBJECT': IndirectObject(584, 0)}

Run Code Online (Sandbox Code Playgroud)

pdf文件是这样的:

558 0 obj
<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0 R/Resources
  <</ColorSpace <</CS0 563 0 R>>
    /ExtGState <</GS0 568 0 R>>
    /Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>
    /ProcSet[/PDF/Text/ImageC]
    /Properties<</MC0<</MYOBJECT 584 0 R>>/MC1<</SubKey 582 0 R>> >>
    /XObject<</Im0 578 0 R>>>>
  /Rotate 0/StructParents 0/Type/Page>>
endobj
...
...
... …

Run Code Online (Sandbox Code Playgroud)

python pdf stream pypdf

Gia*_*rlo

2012 08-21

10
推荐指数

2
解决办法

1万
查看次数