相关疑难解决方法(0)

如何从PDF中提取文本?

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xmljson格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)?

pdf text text-extraction ghostscript extraction

141
推荐指数
10
解决办法
23万
查看次数

是否压缩了所有PDF文件?

因此,PDF压缩中存在一些线索,说压缩PDF有一些但不是很多,因为PDF已经被压缩了.

我的问题是:所有PDF格式都适用,包括格式的旧版本吗?

此外,我确信可能有人(可能是白痴)将位图放入PDF而不是JPEG等.我们的公司在其数据库中有很多PDF(可能有一些较旧的格式).我们正在考虑使用gzip在传输过程中进行压缩,但不知道它是否值得麻烦

compression pdf gzip

14
推荐指数
2
解决办法
2万
查看次数

访问PDF中的字体文件

我们目前正与一些出版商合作,通过他们的PDF生成在线图书.我们的遗留应用程序使用flex,因此我们正在使用SWFToolsPDF2SWF将PDF转换为SWF文件.

我们遇到的问题是,当用户执行搜索时,我们的弹性阅读器不会突出显示SWF文档中的文本.经过快速调查后,我们发现在提取文本时我们需要嵌入PDF文档使用的字体:

http://wiki.swftools.org/wiki/How_do_I_highlight_text_in_the_SWF%3F

pdf2swf -F $YOUR_FONTS_DIR$ -f input.pdf -o output.swf
Run Code Online (Sandbox Code Playgroud)

从上面的代码中可以看出,我们需要一个包含该PDF中字体的字体目录的路径.

由于我们将转换大量PDF,是否可以直接通过PDF访问字体文件而不是在我们的应用程序中存储大量字体?

附加信息

我们的应用程序是用Java编写的.

我们目前在应用程序中使用PDFBox和Ghostscript,因此如果任何解决方案使用这些库,那么这将是首选,但我们对所有想法持开放态度.

java pdf fonts extract pdfbox

6
推荐指数
1
解决办法
1100
查看次数