小编Alf*_*isy的帖子

如何从pdf中提取特定标题下的文本？

我想使用python从pdf提取特定标题下的文本。

例如，我有一个PDF，标题为Introduction，Summary，Contents。我只需要提取“摘要”标题下的文本。

我怎样才能做到这一点？

pdf document text-extraction python-2.7 pdf-extraction

Alf*_*isy

2018 01-05

6
推荐指数

1
解决办法

1813
查看次数

使用python从MS word docx文件中逐页提取文本

我有一个 MS docx 文件，我需要从中逐页提取文本。我尝试过使用 python-docx 但它可以提取整个文本，但不能按页提取。我还将 docx 转换为 pdf，然后尝试文本提取。问题是，转换后 docx 的页面结构发生了变化。例如，在转换时，字体大小发生了变化，docx中一页的文本内容占用了pdf中一页以上的内容。

我正在寻找一个稳定的解决方案，可以从 docx 中提取分页文本（不转换为 pdf 对我的整个解决方案来说会更好）。有人可以帮我解决这个问题吗？

python document text-extraction extract python-3.x

Alf*_*isy

lucky-day

5
推荐指数

2
解决办法

1万
查看次数