小编Kel*_*vin的帖子

OCR:从具有不同结构的表单中提取字段

我试图从资产负债表中提取某些字段.例如,我希望能够告诉以下资产负债表的"库存"值为1,277,838:

资产负债表

目前,我正在使用Tesseract将图像转换为文本.但是,此转换会产生文本流,因此很难将字段与其值相关联(因为这些值并不总是在其相应字段的文本旁边).

经过一番搜索后,我读到Tesseract可以使用uzn文件从图像的区域中读取.但是,资产负债表价值的具体区域可能会从形式转变为形式,因此我对任何可以确定"库存"和1,277,838位于同一行的解决方案感兴趣.理想情况下,我想要一个文本的网格结构输出(这样我就可以在空间上告诉哪些文本块在同一行/列中).

这种情况是否有任何商业或开源解决方案?

python ocr tesseract

11
推荐指数
1
解决办法
5931
查看次数

修复外部参照表损坏的 pdf

是否有任何解决方案(最好是Python)可以修复外部参照表损坏的pdf?

我有一个 pdf 文件,尝试在 Ghostscript 中将其转换为 png 格式,但收到以下错误:

**** 错误:读取 XREF 表时发生错误。**** 文件已损坏。这可能是由于转换或传输文件时出现问题造成的。

但是,我可以在 Mac 上的“预览”中打开 pdf,并且当我使用“预览”导出 pdf 时,我可以转换导出的 pdf。

有没有办法修复pdf文件而无需手动打开并导出它们?

python pdf ghostscript

9
推荐指数
1
解决办法
1万
查看次数

标签 统计

python ×2

ghostscript ×1

ocr ×1

pdf ×1

tesseract ×1