我必须将PDF页面中的文本从缩进中提取到CSV文件中.
PDF教科书的索引页面:
我应该将文本拆分为类和子类型层次结构以及页码.例如,在图像中, Application server是类,Apache Tomcat是页码275中的子类
这是CSV的预期输出:
我使用Tika解析器来解析PDF,但是在解析的内容中没有正确维护缩进(不是唯一的),以便将文本拆分为类和子类.
这是解析文本的样子:
任何人都可以建议我这个要求的正确方法吗?
python pdftotext pdfminer ner natural-language-processing
natural-language-processing ×1
ner ×1
pdfminer ×1
pdftotext ×1
python ×1