如何从原始分辨率和格式中提取pdf文档中的所有图像?(意思是提取tiff为tiff,jpeg为jpeg等,无需重新采样).布局是不重要的,我不在乎是源图像位于页面上.
我正在使用python 2.7,但如果需要可以使用3.x.
有没有办法以编程方式从PDF文件中提取突出显示的文本和注释?欢迎任何语言.我找到了几个包含Python,Java和PHP的库,但是没有一个能够完成这项任务.
我不知道是否可能.我也知道有些程序会创建额外的文件来保存这类信息(如果我没有错,Kindle会生成另一个文件.)但目前这些文件超出了范围.
我有一个PDF文件,其中包含注释和对注释的建议,这些注释显示在鼠标移到带注释字词的上方时。
例如,考虑上面的图像,其中您要花费的单词是删除线(表示不正确的单词),并且在鼠标上方的上方显示了弹出窗口,其中出现了正确的单词。类似地,还有另一个插入符号也是如此。
我想提取两个单词的列表,这将显示文件中正确和错误的单词。
我正在寻找一个可以在linux上运行的免费库(Java/Ruby),并且可以从PDF中提取图像和注释; 类似于CGPDFDocument在OS X上可以做的事情.
谢谢!