相关疑难解决方法(0)

如何从PDF中提取文本?

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xmljson格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)?

pdf text text-extraction ghostscript extraction

141
推荐指数
10
解决办法
23万
查看次数

用于IndirectObject提取的pyPdf

按照这个例子,我可以将所有元素列入pdf文件

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects
Run Code Online (Sandbox Code Playgroud)

现在,我需要从pdf文件中提取非标准对象.

我的对象是名为MYOBJECT的对象,它是一个字符串.

由关注我的python脚本打印的作品是:

{'/MYOBJECT': IndirectObject(584, 0)}
Run Code Online (Sandbox Code Playgroud)

pdf文件是这样的:

558 0 obj
<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0 R/Resources
  <</ColorSpace <</CS0 563 0 R>>
    /ExtGState <</GS0 568 0 R>>
    /Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>
    /ProcSet[/PDF/Text/ImageC]
    /Properties<</MC0<</MYOBJECT 584 0 R>>/MC1<</SubKey 582 0 R>> >>
    /XObject<</Im0 578 0 R>>>>
  /Rotate 0/StructParents 0/Type/Page>>
endobj
...
...
... …
Run Code Online (Sandbox Code Playgroud)

python pdf stream pypdf

10
推荐指数
2
解决办法
1万
查看次数

如何从特定矩形区域内的pdf文档中提取文本?

我必须从特定矩形区域内的pdf文档中提取文本.工作流程如下.首先,pdf被转换为jpg图像.然后用户在图片顶部绘制选择矩形.然后我不知何故需要从该选择区域内的pdf doc中提取所有文本.有什么建议从C#可以使用的免费软件pdf库吗?

c# pdf

5
推荐指数
2
解决办法
1万
查看次数

是否可以使用pytesseract从图像的特定部分提取文本

我在图像中有边界框(矩形坐标),并希望在该坐标内提取文本。如何使用 pytesseract 提取该坐标内的文本?

我尝试使用 opencv 将图像部分复制到其他 numpyarray

cropped_image = image[y1:y2][x1:x2]
Run Code Online (Sandbox Code Playgroud)

并尝试了 pytesseract.image_to_string()。但准确度非常差。但是当我尝试将原始图像转换为 pytesseract.image_to_string() 时,它完美地提取了所有内容..

是否有任何功能可以使用 pytesseract 提取图像的特定部分?

考虑到我有包含“在线食品配送系统”的矩形坐标,此图像具有不同的信息部分,如何在 pytessaract 中提取该数据?

请帮助提前致谢

我使用的版本: Tesseract 4.0.0 pytesseract 0.3.0 OpenCv 3.4.3

python ocr opencv text-extraction python-tesseract

5
推荐指数
1
解决办法
5447
查看次数