相关疑难解决方法(0)

如何从PDF中提取文本?

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xmljson格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)?

pdf text text-extraction ghostscript extraction

141
推荐指数
10
解决办法
23万
查看次数

使用iTextSharp获取指定区域中包含的文本

是否有可能使用iTextSharp获取pdf文档指定区域中包含的所有文本?

在此输入图像描述

谢谢.

c# itextsharp

5
推荐指数
1
解决办法
3306
查看次数

如何使用Python从PDF的特定区域提取文本?

我正在尝试使用Python从PDF提取文本,并且我已经成功地使用PyPDF2这样完成了操作:

import PyPDF2
pdfFileObj = open('path', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
pageObj.extractText()
Run Code Online (Sandbox Code Playgroud)

这将从页面中提取所有文本,但是我只想从页面左上角3'x4'的矩形区域中提取文本。

我基本上想做类似的事情:如何从特定矩形区域内的pdf文档中提取文本?但是在Python中

可以通过PyPDF2或任何其他Python库完成此操作吗?

python pdf python-2.7 pypdf2

5
推荐指数
1
解决办法
6368
查看次数