Jin*_*inx 6 python python-camelot pymupdf
在发布此内容之前,我已经广泛搜索了 stackoverflow,但未能在 Camelot 页面尺寸上找到任何内容。有这个问题,建议使用table_region,但这并不能解决OP或我的问题。不幸的是,我无法发表评论来跟进OP,看看他们是否找到了解决方案。
我正在尝试做的事情:
\n\n我正在使用 Camelot 来识别表(显然)。有时,当我知道页面的哪个区域可能包含感兴趣的表时,我只想在该区域中进行搜索。camelot.read_pdf()使用\可以轻松完成此操作table_region- 我只需要提供一对坐标供 Camelot 进行搜索。
问题是,我使用 PyMuPDF 获取这些坐标,因此它们位于 PyMuPDF 的坐标系中。我已经弄清楚如何翻译这些坐标,但我缺少来自 Camelot 的一条关键信息 - 页面的尺寸。这些值很容易在 PyMuPDF(Page 类.bound(),我需要 Camelot 等效值。如果有人认为之间可能有替代方案,我可以在这里提供代数的进一步解释
到目前为止我已经尝试过的:
\n\n我阅读了文档。由于文档中的这一行,我想知道这是否可以提供一种获取尺寸的方法:“在使用 Lattice 时,可能会出现检测到较小的线 don\xe2\x80\x99t 的情况。最小线的大小检测到的结果是通过将 PDF 页面\xe2\x80\x99s 尺寸除以名为的缩放因子来计算的line_scale计算的。默认情况下,其值为 15"
我对替代方案持开放态度,本质上我要么想检查页面的某个区域是否包含表格(PyMuPDF坐标系中描述的区域,对于pdf页面,尺寸通常为(612, 792),原点位于顶部左角。camelot 的原点位于左下角),或者页面上的任何表格位于给定区域(如果有意义的话)。
\n小智 4
尝试以下代码,看看它是否为您提供了您想要的尺寸:
from camelot import utils
layout, dim = utils.get_page_layout(file_name)
Run Code Online (Sandbox Code Playgroud)