从PDF中提取所有内容

Max*_*Max 8 pdf text image extract

寻找从PDF文件中提取内容的解决方案(使用控制台工具或库).

它将在服务器上用于从上传的PDF文件中生成在线电子书.

需要提取以下内容:

  1. 带字体和样式的文字;
  2. 图片;
  3. 音视频;
  4. 链接和热点.
  5. 页面快照和缩略图;
  6. 一般PDF信息,例如书籍布局,页数等.

查看Adobe PDF库(仅5000美元),BCL SDK(?),PDFLib(795欧元),QuickPDF(250美元)

现在我们使用开源pdf2xml(提取文本,图像和链接)和GhostScript(快照和缩略图).剩下的其他事情是:

  1. 字体;
  2. 多媒体;
  3. 热点;
  4. 页面信息.

我们在支付大量资金(并且可能在选择错误的解决方案时出错)或使用免费/开源解决方案时犹豫不决.

您会推荐使用哪种BEST解决方案从PDF中提取几乎所有内容?

任何评论将不胜感激.

Ada*_*ode 5

听起来像几天或几周的努力,您就可以使开源工具适应您的需求。字体和所有内容都可以提取,这是每个PDF阅读器都必须执行的操作才能显示它们。

您可能应该估计一下程序员的成本($ / hr),然后乘以估计的时间来添加所需的开源功能(60-80小时?)。如果这笔钱大于或接近5000美元,您可能会考虑购买商用软件。

否则,在(非常好的)PDF参考的帮助下,您应该会顺利进行。

还有一件事,您可能会发现Poppler会有所帮助。它用于呈现PDF,但这与您要执行的操作非常相关。