任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.
我们希望以数据xml或json格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.
是否有以编程方式从pdf中提取文本的替代品(商业或免费)?
按照这个例子,我可以将所有元素列入pdf文件
import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects
Run Code Online (Sandbox Code Playgroud)
现在,我需要从pdf文件中提取非标准对象.
我的对象是名为MYOBJECT的对象,它是一个字符串.
由关注我的python脚本打印的作品是:
{'/MYOBJECT': IndirectObject(584, 0)}
Run Code Online (Sandbox Code Playgroud)
pdf文件是这样的:
558 0 obj
<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0 R/Resources
<</ColorSpace <</CS0 563 0 R>>
/ExtGState <</GS0 568 0 R>>
/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>
/ProcSet[/PDF/Text/ImageC]
/Properties<</MC0<</MYOBJECT 584 0 R>>/MC1<</SubKey 582 0 R>> >>
/XObject<</Im0 578 0 R>>>>
/Rotate 0/StructParents 0/Type/Page>>
endobj
...
...
... …Run Code Online (Sandbox Code Playgroud) 我必须从特定矩形区域内的pdf文档中提取文本.工作流程如下.首先,pdf被转换为jpg图像.然后用户在图片顶部绘制选择矩形.然后我不知何故需要从该选择区域内的pdf doc中提取所有文本.有什么建议从C#可以使用的免费软件pdf库吗?
我在图像中有边界框(矩形坐标),并希望在该坐标内提取文本。如何使用 pytesseract 提取该坐标内的文本?
我尝试使用 opencv 将图像部分复制到其他 numpyarray
cropped_image = image[y1:y2][x1:x2]
Run Code Online (Sandbox Code Playgroud)
并尝试了 pytesseract.image_to_string()。但准确度非常差。但是当我尝试将原始图像转换为 pytesseract.image_to_string() 时,它完美地提取了所有内容..
是否有任何功能可以使用 pytesseract 提取图像的特定部分?
考虑到我有包含“在线食品配送系统”的矩形坐标,此图像具有不同的信息部分,如何在 pytessaract 中提取该数据?
请帮助提前致谢
我使用的版本: Tesseract 4.0.0 pytesseract 0.3.0 OpenCv 3.4.3
pdf ×3
python ×2
c# ×1
extraction ×1
ghostscript ×1
ocr ×1
opencv ×1
pypdf ×1
stream ×1
text ×1