相关疑难解决方法(0)

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗？我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xml或json格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)？

pdf text text-extraction ghostscript extraction

141
推荐指数

10
解决办法

23万
查看次数

是否有可能使用iTextSharp获取pdf文档指定区域中包含的所有文本？

在此输入图像描述

谢谢.

5
推荐指数

1
解决办法

3306
查看次数

我正在尝试使用Python从PDF提取文本，并且我已经成功地使用PyPDF2这样完成了操作：

import PyPDF2
pdfFileObj = open('path', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
pageObj.extractText()

这将从页面中提取所有文本，但是我只想从页面左上角3'x4'的矩形区域中提取文本。

可以通过PyPDF2或任何其他Python库完成此操作吗？

5
推荐指数

1
解决办法

6368
查看次数

pdf ×2

c# ×1