A.A*_*. F 6 python pdf-extraction python-camelot
我正在使用 Camelot 读取完整的 PDF 并从每个 PDF 中提取大约 112 个属性。
我使用表区域来提取属性
test_variable = camelot.read_pdf(filename, flavor='stream',
table_areas=['38, 340 ,50, 328'])
Run Code Online (Sandbox Code Playgroud)
问题是对于所有文档中的相同属性,表区域并不是恒定的。有时,我会在另一个文档的 x 或 y 坐标下方几个像素处找到相同的属性。
test_variable = camelot.read_pdf(filename, flavor='stream',
table_areas=['38,350,50,338'])
Run Code Online (Sandbox Code Playgroud)
有没有办法从同一区域获取确切的属性,而不管提取任何文档?
也许选项 table_regions (0.7 中引入)可以帮助你。
https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-regions
“当指定 table_regions 时,Camelot 将仅分析指定区域来查找表。”
您可以定义一个更大的 table_regions 区域,Camelot 将在该区域中搜索表。
| 归档时间: |
|
| 查看次数: |
2952 次 |
| 最近记录: |