小编Ary*_*yan的帖子

使用Python解析PDF教科书中的索引页面

我必须将PDF页面中的文本从缩进中提取到CSV文件中.

PDF教科书的索引页面:

我应该将文本拆分为类和子类型层次结构以及页码.例如,在图像中, Application server是类,Apache Tomcat是页码275中的子类

这是CSV的预期输出:

我使用Tika解析器来解析PDF,但是在解析的内容中没有正确维护缩进(不是唯一的),以便将文本拆分为类和子类.

这是解析文本的样子:

任何人都可以建议我这个要求的正确方法吗?

python pdftotext pdfminer ner natural-language-processing

8
推荐指数
1
解决办法
865
查看次数