Alf*_*isy 6 pdf document text-extraction python-2.7 pdf-extraction
我想使用python从pdf提取特定标题下的文本。
例如,我有一个PDF,标题为Introduction,Summary,Contents。我只需要提取“摘要”标题下的文本。
我怎样才能做到这一点?
小智 6
这个场景正是我在我现在的公司工作的。我们需要提取位于标题下的文本。我个人使用基于规则的系统,即在逐行阅读整个文档后使用正则表达式来识别所有编号的标题。一旦我有了标题,我就输入标题的名称,我想为其找到相应的段落。此输入与预先存在的标题列表匹配,并使用通用句子编码器找到最接近的匹配项。之后,我只显示从该标题到下一个标题的所有内容。
归档时间: |
|
查看次数: |
1813 次 |
最近记录: |