小编Max*_*Max的帖子

从PDF中提取所有内容

寻找从PDF文件中提取内容的解决方案(使用控制台工具或库).

它将在服务器上用于从上传的PDF文件中生成在线电子书.

需要提取以下内容:

  1. 带字体和样式的文字;
  2. 图片;
  3. 音视频;
  4. 链接和热点.
  5. 页面快照和缩略图;
  6. 一般PDF信息,例如书籍布局,页数等.

查看Adobe PDF库(仅5000美元),BCL SDK(?),PDFLib(795欧元),QuickPDF(250美元)

现在我们使用开源pdf2xml(提取文本,图像和链接)和GhostScript(快照和缩略图).剩下的其他事情是:

  1. 字体;
  2. 多媒体;
  3. 热点;
  4. 页面信息.

我们在支付大量资金(并且可能在选择错误的解决方案时出错)或使用免费/开源解决方案时犹豫不决.

您会推荐使用哪种BEST解决方案从PDF中提取几乎所有内容?

任何评论将不胜感激.

pdf text image extract

8
推荐指数
1
解决办法
6090
查看次数

使用某个实用程序或脚本将嵌入的PDF字体提取到外部ttf文件

是否可以使用某个实用程序或脚本将嵌入在PDF文件中的字体提取到外部ttf文件?

  1. 如果系统中存在嵌入(或未嵌入)PDF文件的字体.使用swftools中的pdf2swf和swfextract工具,我可以确定PDF文件中使用的字体的名称.然后我可以在运行时编译各自的系统字体,然后加载到我的AIR应用程序.

  2. 但如果系统中没有PDF中使用的字体,则有两种可能:

    2.1.如果它们在PDF文件中也不存在(未嵌入),我们只能使用基于字体名称的类似系统字体.

    2.2.如果它们嵌入在PDF文件中,那么我想知道是否有可能将它们提取到外部ttf文件,以便我可以在运行时编译它们以分离swf文件?

pdf flash scripting fonts extract

1
推荐指数
1
解决办法
1万
查看次数

标签 统计

extract ×2

pdf ×2

flash ×1

fonts ×1

image ×1

scripting ×1

text ×1