识别并提取 PDF 文档的特定部分

Question

识别并提取 PDF 文档的特定部分

aki*_*aki 5 python pdf ocr image-recognition pdf-parsing

我有几份 PDF 格式的考试。我想以编程方式将每个问题提取为单独的图像/文档。OCR 并不理想，因为它不能很好地维护代码/方程格式。最终目标是制作闪存卡，每张卡都包含整个问题的图像。问题可以在同一页上，也可以由多个部分组成（例如 1a、2f 等）。

目前，我正在考虑使用 OCR 来提取问题标签（例如 1、2、3 等），然后找到它们在 pdf 中的位置，并提取从一个问题的开头到下一个问题的开头的图像。是否有任何框架或软件可以做到这一点或提供某种替代方法来使这更容易？

Answer 1

小智 5

看看Allen AI的Science-Parse。它在从 PDF 文档中提取元数据方面做得相当不错。通常，它比其他文本提取软件（例如textract和pdfplumber ）更好。

从PDF中准确提取数学公式多年来一直是一个研究课题。我还没有找到任何与精确提取数学公式相关的开源项目/包/软件，尽管有许多研究论文描述了这样做的方法，例如this和this。（更多的研究是关于数学公式的识别或将它们转换为适当的标记，例如 LaTeX、MathML 等）。这些论文中的大多数使用有关字体、基线、字形边界框、行距等的信息来正确地识别数学公式。识别数学公式并提取它们。

对于 OCR，您始终可以使用Infty。InftyReader 的描述是这样的：

InftyReader 可识别包括数学公式在内的打印科学文档的扫描图像，并以各种格式输出识别结果：InftyEditor 的 XML 格式、LaTeX、MathML、用于百叶窗的人类可读 TeX 等。

归档时间：	8 年，3 月前
查看次数：	12750 次
最近记录：	2 年，2 月前