小编Ike*_*iro的帖子

我试图使用Python的re模块解析PDF文件中的一些对象元素.我的目标是使用正则表达式解析每个PDF对象.PDF对象示例如下:

1 0 obj
<<
    /Type /Catalog
    /Pages 2 0 R
>>
endobj
2 0 obj
<<
    /Type /Pages
    /Kids [ 3 0 R ]
    /Count 1
>>
endobj
...

当我使用"\d+\s\d+\sobj[\s,\S]*endobj"它时不起作用(它保持解析util last endobj被发现).如何修改正则表达式以便单独解析每个对象(换句话说,从10 0 obj到endobj的部分)？

4
推荐指数

1
解决办法

4581
查看次数

pdf ×1

小编Ike_iro的帖子