Perl PDF逐行解析？

Question

我有一个pdf,只包含文本,没有特殊字符或图像等.是否有任何Perl模块(看cpan无济于事)帮我逐行解析每个页面？(将PDF转换为文本会产生错误结果和不可解析的数据)

谢谢,

Answer 1

当我想从PDF中提取文本时,我使用输出选项将其提供给pdftohtml(Poppler的一部分)-xml.这会生成一个XML文件,我使用XML :: Twig(或除了XML :: Simple之外的任何其他XML解析器)进行解析.

XML格式非常简单.您将获得<page>PDF中每个页面的元素,其中包含<fontspec>描述所用字体的<text>元素以及每行文本的元素.该<text>元素可以包含<b>并<i>为粗体和斜体文字标签(这就是为什么XML ::简单的不能正确解析它).

您需要使用标记的top和left属性<text>以正确的顺序获取它们,因为它们不一定按从上到下的顺序发出.坐标系在页面的左上角有0,0,向下和向右为正.尺寸采用PostScript点(每英寸72点).