如何从pdf中提取特定标题下的文本?

Alf*_*isy 6 pdf document text-extraction python-2.7 pdf-extraction

我想使用python从pdf提取特定标题下的文本。

例如,我有一个PDF,标题为Introduction,Summary,Contents。我只需要提取“摘要”标题下的文本。

我怎样才能做到这一点?

样本图片

小智 6

这个场景正是我在我现在的公司工作的。我们需要提取位于标题下的文本。我个人使用基于规则的系统,即在逐行阅读整个文档后使用正则表达式来识别所有编号的标题。一旦我有了标题,我就输入标题的名称,我想为其找到相应的段落。此输入与预先存在的标题列表匹配,并使用通用句子编码器找到最接近的匹配项。之后,我只显示从该标题到下一个标题的所有内容。

  • 您能否添加代码片段并解释其步骤以便更好地理解? (2认同)