寻找从PDF文件中提取内容的解决方案(使用控制台工具或库).
它将在服务器上用于从上传的PDF文件中生成在线电子书.
需要提取以下内容:
查看Adobe PDF库(仅5000美元),BCL SDK(?),PDFLib(795欧元),QuickPDF(250美元)
现在我们使用开源pdf2xml(提取文本,图像和链接)和GhostScript(快照和缩略图).剩下的其他事情是:
我们在支付大量资金(并且可能在选择错误的解决方案时出错)或使用免费/开源解决方案时犹豫不决.
您会推荐使用哪种BEST解决方案从PDF中提取几乎所有内容?
任何评论将不胜感激.
是否可以使用某个实用程序或脚本将嵌入在PDF文件中的字体提取到外部ttf文件?
如果系统中存在嵌入(或未嵌入)PDF文件的字体.使用swftools中的pdf2swf和swfextract工具,我可以确定PDF文件中使用的字体的名称.然后我可以在运行时编译各自的系统字体,然后加载到我的AIR应用程序.
但如果系统中没有PDF中使用的字体,则有两种可能:
2.1.如果它们在PDF文件中也不存在(未嵌入),我们只能使用基于字体名称的类似系统字体.
2.2.如果它们嵌入在PDF文件中,那么我想知道是否有可能将它们提取到外部ttf文件,以便我可以在运行时编译它们以分离swf文件?