哪些是将PDF文件转换为文本的最佳Python模块?
我知道pdftk.exe可以指示PDF使用哪些字体的实用程序,以及它们是否嵌入.
现在的问题是:鉴于我有嵌入字体的PDF文件 - 如何以可重复使用的常规字体文件的形式提取这些字体?是否有(最好是免费的)工具可以做到这一点?另外:这可以用iText以编程方式完成吗?
我想使用Ghostscript从PDF的一部分(使用坐标)中提取文本.
谁能帮我吗?
我想在我的项目中使用Google Translate.我完成了与谷歌的所有手续.我也有API密钥.使用此键,我可以轻松地使用JavaScript翻译任何单词.但是,如何在Google翻译网站中翻译PDF文件?我发现了一件事:
http://translate.google.com/translate?hl=fr&sl=auto&tl=en&u=http://www.example.com/PDF.pdf
但在这里我无法使用我的密钥,因此翻译需要花费很多时间.所以我想使用我的密钥并翻译PDF文件.请帮帮我.我的方法是这样的:
1. One html page I have.
2. One browse button for pdf
3. Upload the file
4. Transalte the pdf with Google API and show in the html page.
Run Code Online (Sandbox Code Playgroud)
我搜索了这个pdf翻译,但没有找到任何东西.请帮帮我.
我已经阅读了很多关于PDF提取和库(如iText)的内容,但我还没有找到从PDF中提取图像和文本(带坐标)的解决方案.
任务是使用产品目录扫描PDF并提取每个图像.每个图像旁边都印有一个图像代码,还有一个产品代码列表,用于显示在图像上的产品.
我知道没有办法从这样的PDF中提取结构化信息,但是使用所有图像和文本对象的坐标,我可以编写代码来识别链接文本与图像的距离.然后我可以使用RegExp分割文本,找出什么是产品代码,什么是图像代码等.
你能为这项任务推荐一个好的工作解决方案吗?
我必须从特定矩形区域内的pdf文档中提取文本.工作流程如下.首先,pdf被转换为jpg图像.然后用户在图片顶部绘制选择矩形.然后我不知何故需要从该选择区域内的pdf doc中提取所有文本.有什么建议从C#可以使用的免费软件pdf库吗?
我正在尝试使用Python从PDF提取文本,并且我已经成功地使用PyPDF2这样完成了操作:
import PyPDF2
pdfFileObj = open('path', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
pageObj.extractText()
Run Code Online (Sandbox Code Playgroud)
这将从页面中提取所有文本,但是我只想从页面左上角3'x4'的矩形区域中提取文本。
我基本上想做类似的事情:如何从特定矩形区域内的pdf文档中提取文本?但是在Python中
可以通过PyPDF2或任何其他Python库完成此操作吗?
pdf ×7
ghostscript ×2
python ×2
c# ×1
coordinates ×1
extraction ×1
file ×1
fonts ×1
image ×1
pdf-scraping ×1
pypdf2 ×1
python-2.7 ×1
translate ×1
truetype ×1
words ×1