相关疑难解决方法(0)

如何从PDF中提取文本？

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗？我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xml或json格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)？

pdf text text-extraction ghostscript extraction

Bud*_*007

2013 03-10

141
推荐指数

10
解决办法

23万
查看次数

是否压缩了所有PDF文件？

因此,PDF压缩中存在一些线索,说压缩PDF有一些但不是很多,因为PDF已经被压缩了.

我的问题是:所有PDF格式都适用,包括格式的旧版本吗？

此外,我确信可能有人(可能是白痴)将位图放入PDF而不是JPEG等.我们的公司在其数据库中有很多PDF(可能有一些较旧的格式).我们正在考虑使用gzip在传输过程中进行压缩,但不知道它是否值得麻烦

compression pdf gzip

Rob*_*ely

2016 10-21

14
推荐指数

2
解决办法

2万
查看次数

访问PDF中的字体文件

我们目前正与一些出版商合作,通过他们的PDF生成在线图书.我们的遗留应用程序使用flex,因此我们正在使用SWFTools的PDF2SWF将PDF转换为SWF文件.

我们遇到的问题是,当用户执行搜索时,我们的弹性阅读器不会突出显示SWF文档中的文本.经过快速调查后,我们发现在提取文本时我们需要嵌入PDF文档使用的字体:

http://wiki.swftools.org/wiki/How_do_I_highlight_text_in_the_SWF%3F

pdf2swf -F $YOUR_FONTS_DIR$ -f input.pdf -o output.swf

Run Code Online (Sandbox Code Playgroud)

从上面的代码中可以看出,我们需要一个包含该PDF中字体的字体目录的路径.

由于我们将转换大量PDF,是否可以直接通过PDF访问字体文件而不是在我们的应用程序中存储大量字体？

附加信息

我们的应用程序是用Java编写的.

我们目前在应用程序中使用PDFBox和Ghostscript,因此如果任何解决方案使用这些库,那么这将是首选,但我们对所有想法持开放态度.

java pdf fonts extract pdfbox

My *_*rts

lucky-day

6
推荐指数

1
解决办法

1100
查看次数

标签统计

pdf ×3

compression ×1

extract ×1

extraction ×1

fonts ×1

ghostscript ×1

gzip ×1

java ×1

pdfbox ×1

text ×1

text-extraction ×1

如何从PDF中提取文本？

是否压缩了所有PDF文件？

访问PDF中的字体文件

标签 统计

标签统计