从PDF读取字体颜色信息

Question

我正在开发一款软件，可以分析PDF文件并基于它们生成HTML。已经有很多东西可以做到这一点，所以我知道这是可能的，出于商业原因，我必须编写自己的东西。

我已经设法从PDF中获取了所有文本信息，位置，字体，但是我正努力读取文本的颜色。我目前正在使用PDFMiner分析PDF，但是开始认为我将需要编写自己的PDFReader，即使如此，我也无法弄清楚文档中颜色信息的位置！我什至已经阅读了PDF规范，但找不到所需的信息。

我已经搜索了谷歌，没有喜悦。

提前致谢！

Answer 1

的颜色为文本和其他填充图形是使用中的所述一个设置g，rg或k在PDF文件中的内容流对象运营商为在部分所述，4.5.7颜色算在PDF参考手册。

参考手册中的示例G.3简单图形示例显示了这些操作符用于描边和填充某些形状（但不包括文本）。

自己解析PDF文件时，您首先需要阅读文件末尾的预告片，该预告片包含交叉引用表的文件偏移量。该表包含PDF文件中每个对象的文件偏移量。这些对象采用树结构，并引用了其他对象。对象之一将是内容流。PDF参考手册中的3.4文件结构 和3.6文档结构部分对此进行了描述。

可以自己解析PDF文件，但这是很多工作。内容流可能被压缩，包含对其他对象的引用，包含注释等，并且您必须处理所有这些情况。

PDFMiner软件已经在读取内容流。也许扩展PDFMiner来报告文本的颜色也会更容易吗？