小编Ike*_*iro的帖子

使用Python中的正则表达式解析PDF文件

我试图使用Python的re模块解析PDF文件中的一些对象元素.我的目标是使用正则表达式解析每个PDF对象.PDF对象示例如下:

1 0 obj
<<
    /Type /Catalog
    /Pages 2 0 R
>>
endobj
2 0 obj
<<
    /Type /Pages
    /Kids [ 3 0 R ]
    /Count 1
>>
endobj
...
Run Code Online (Sandbox Code Playgroud)

当我使用"\d+\s\d+\sobj[\s,\S]*endobj"它时不起作用(它保持解析util last endobj被发现).如何修改正则表达式以便单独解析每个对象(换句话说,从10 0 obj到endobj的部分)?

python regex pdf parsing

4
推荐指数
1
解决办法
4581
查看次数

标签 统计

parsing ×1

pdf ×1

python ×1

regex ×1