Ali*_*sad 4 html python pdf python-3.x
我正在尝试将 pdf 解析为 html,然后我想从标签中提取标题和副标题。pdf 文档是由 Microsoft word 生成的,所以我很确定一定有办法获取这些标题。
到目前为止,我已经尝试使用 Apache Tika 和 PDFMiner.6 进行解析,但到目前为止我得到的 html 没有这样的标签,我可以用它来提取文档的标题和副标题。
我想知道是否有办法做到这一点,将不胜感激。谢谢
小智 8
我建议您使用 GROBID,它是一个机器学习库,用于提取、解析和重新构建原始文档(例如 PDF)为结构化 XML/TEI 编码文档,特别关注技术和科学出版物。
GROBID REST 服务的简单 python 客户端可在https://github.com/kermitt2/grobid-client-python上找到
该 Python 客户端可用于通过 GROBID 服务处理给定目录中的一组 PDF。结果写入给定的输出目录中,并包括生成的 PDF 的 XML TEI 表示形式。
希望这可以帮助。
| 归档时间: |
|
| 查看次数: |
5325 次 |
| 最近记录: |