相关疑难解决方法(0)

378
推荐指数
9
解决办法
32万
查看次数

如何从PDF中提取嵌入字体作为有效字体文件?

我知道pdftk.exe可以指示PDF使用哪些字体的实用程序,以及它们是否嵌入.

现在的问题是:鉴于我有嵌入字体的PDF文件 - 如何以可重复使用的常规字体文件的形式提取这些字体?是否有(最好是免费的)工具可以做到这一点?另外:这可以用iText以编程方式完成吗?

pdf fonts truetype ghostscript embedded-fonts

152
推荐指数
5
解决办法
24万
查看次数

带坐标的PDF文本提取

我想使用Ghostscript从PDF的一部分(使用坐标)中提取文本.

谁能帮我吗?

pdf text-extraction ghostscript

42
推荐指数
1
解决办法
6万
查看次数

使用Google Translate API翻译PDF文件

我想在我的项目中使用Google Translate.我完成了与谷歌的所有手续.我也有API密钥.使用此键,我可以轻松地使用JavaScript翻译任何单词.但是,如何在Google翻译网站中翻译PDF文件?我发现了一件事:

http://translate.google.com/translate?hl=fr&sl=auto&tl=en&u=http://www.example.com/PDF.pdf

但在这里我无法使用我的密钥,因此翻译需要花费很多时间.所以我想使用我的密钥并翻译PDF文件.请帮帮我.我的方法是这样的:

1. One html page I have.
2. One browse button for pdf
3. Upload the file
4. Transalte the pdf with Google API and show in the html page.
Run Code Online (Sandbox Code Playgroud)

我搜索了这个pdf翻译,但没有找到任何东西.请帮帮我.

pdf file translate

9
推荐指数
1
解决办法
3953
查看次数

从PDF中提取坐标和大小的图像和单词

我已经阅读了很多关于PDF提取和库(如iText)的内容,但我还没有找到从PDF中提取图像和文本(带坐标)的解决方案.

任务是使用产品目录扫描PDF并提取每个图像.每个图像旁边都印有一个图像代码,还有一个产品代码列表,用于显示在图像上的产品.

我知道没有办法从这样的PDF中提取结构化信息,但是使用所有图像和文本对象的坐标,我可以编写代码来识别链接文本与图像的距离.然后我可以使用RegExp分割文本,找出什么是产品代码,什么是图像代码等.

你能为这项任务推荐一个好的工作解决方案吗?

pdf words image extraction coordinates

8
推荐指数
1
解决办法
5913
查看次数

如何从特定矩形区域内的pdf文档中提取文本?

我必须从特定矩形区域内的pdf文档中提取文本.工作流程如下.首先,pdf被转换为jpg图像.然后用户在图片顶部绘制选择矩形.然后我不知何故需要从该选择区域内的pdf doc中提取所有文本.有什么建议从C#可以使用的免费软件pdf库吗?

c# pdf

5
推荐指数
2
解决办法
1万
查看次数

如何使用Python从PDF的特定区域提取文本?

我正在尝试使用Python从PDF提取文本,并且我已经成功地使用PyPDF2这样完成了操作:

import PyPDF2
pdfFileObj = open('path', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
pageObj.extractText()
Run Code Online (Sandbox Code Playgroud)

这将从页面中提取所有文本,但是我只想从页面左上角3'x4'的矩形区域中提取文本。

我基本上想做类似的事情:如何从特定矩形区域内的pdf文档中提取文本?但是在Python中

可以通过PyPDF2或任何其他Python库完成此操作吗?

python pdf python-2.7 pypdf2

5
推荐指数
1
解决办法
6368
查看次数