从PDF读取字体颜色信息

She*_*uti 4 python pdf

我正在开发一款软件,可以分析PDF文件并基于它们生成HTML。已经有很多东西可以做到这一点,所以我知道这是可能的,出于商业原因,我必须编写自己的东西。

我已经设法从PDF中获取了所有文本信息,位置,字体,但是我正努力读取文本的颜色。我目前正在使用PDFMiner分析PDF,但是开始认为我将需要编写自己的PDFReader,即使如此,我也无法弄清楚文档中颜色信息的位置!我什至已经阅读了PDF规范,但找不到所需的信息。

我已经搜索了谷歌,没有喜悦。

提前致谢!

Sim*_*n C 5

的颜色为文本和其他填充图形是使用中的所述一个设置grgk在PDF文件中的内容流对象运营商为在部分所述,4.5.7颜色算在PDF参考手册。

参考手册中的示例G.3简单图形示例显示了这些操作符用于描边和填充某些形状(但不包括文本)。

http://www.adobe.com/devnet/pdf/pdf_reference.html

自己解析PDF文件时,您首先需要阅读 文件末尾的预告片,该预告片包含交叉引用表的文件偏移量 。该表包含PDF文件中每个对象的文件偏移量。这些对象采用树结构,并引用了其他对象。对象之一将是内容流。PDF参考手册中的3.4文件结构3.6文档结构部分对此进行了描述。

可以自己解析PDF文件,但这是很多工作。内容流可能被压缩,包含对其他对象的引用,包含注释等,并且您必须处理所有这些情况。

PDFMiner软件已经在读取内容流。也许扩展PDFMiner来报告文本的颜色也会更容易吗?