从PDF中提取所有内容

Question

寻找从PDF文件中提取内容的解决方案(使用控制台工具或库).

它将在服务器上用于从上传的PDF文件中生成在线电子书.

需要提取以下内容:

查看Adobe PDF库(仅5000美元),BCL SDK(？),PDFLib(795欧元),QuickPDF(250美元)

现在我们使用开源pdf2xml(提取文本,图像和链接)和GhostScript(快照和缩略图).剩下的其他事情是:

我们在支付大量资金(并且可能在选择错误的解决方案时出错)或使用免费/开源解决方案时犹豫不决.

您会推荐使用哪种BEST解决方案从PDF中提取几乎所有内容？

任何评论将不胜感激.

Answer 1

听起来像几天或几周的努力，您就可以使开源工具适应您的需求。字体和所有内容都可以提取，这是每个PDF阅读器都必须执行的操作才能显示它们。

您可能应该估计一下程序员的成本（$ / hr），然后乘以估计的时间来添加所需的开源功能（60-80小时？）。如果这笔钱大于或接近5000美元，您可能会考虑购买商用软件。

否则，在（非常好的）PDF参考的帮助下，您应该会顺利进行。

还有一件事，您可能会发现Poppler会有所帮助。它用于呈现PDF，但这与您要执行的操作非常相关。