sno*_*kin 2 pdf perl pdf-parsing
我有一个pdf,只包含文本,没有特殊字符或图像等.是否有任何Perl模块(看cpan无济于事)帮我逐行解析每个页面?(将PDF转换为文本会产生错误结果和不可解析的数据)
谢谢,
当我想从PDF中提取文本时,我使用输出选项将其提供给pdftohtml
(Poppler的一部分)-xml
.这会生成一个XML文件,我使用XML :: Twig(或除了XML :: Simple之外的任何其他XML解析器)进行解析.
XML格式非常简单.您将获得<page>
PDF中每个页面的元素,其中包含<fontspec>
描述所用字体的<text>
元素以及每行文本的元素.该<text>
元素可以包含<b>
并<i>
为粗体和斜体文字标签(这就是为什么XML ::简单的不能正确解析它).
您需要使用标记的top
和left
属性<text>
以正确的顺序获取它们,因为它们不一定按从上到下的顺序发出.坐标系在页面的左上角有0,0,向下和向右为正.尺寸采用PostScript点(每英寸72点).
归档时间: |
|
查看次数: |
936 次 |
最近记录: |