任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.
我们希望以数据xml或json格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.
是否有以编程方式从pdf中提取文本的替代品(商业或免费)?
是否有可能使用iTextSharp获取pdf文档指定区域中包含的所有文本?

谢谢.
我正在尝试使用Python从PDF提取文本,并且我已经成功地使用PyPDF2这样完成了操作:
import PyPDF2
pdfFileObj = open('path', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
pageObj.extractText()
Run Code Online (Sandbox Code Playgroud)
这将从页面中提取所有文本,但是我只想从页面左上角3'x4'的矩形区域中提取文本。
我基本上想做类似的事情:如何从特定矩形区域内的pdf文档中提取文本?但是在Python中
可以通过PyPDF2或任何其他Python库完成此操作吗?
pdf ×2
c# ×1
extraction ×1
ghostscript ×1
itextsharp ×1
pypdf2 ×1
python ×1
python-2.7 ×1
text ×1