我想使用python从pdf提取特定标题下的文本。
例如,我有一个PDF,标题为Introduction,Summary,Contents。我只需要提取“摘要”标题下的文本。
我怎样才能做到这一点?
pdf document text-extraction python-2.7 pdf-extraction
我有一个 MS docx 文件,我需要从中逐页提取文本。我尝试过使用 python-docx 但它可以提取整个文本,但不能按页提取。我还将 docx 转换为 pdf,然后尝试文本提取。问题是,转换后 docx 的页面结构发生了变化。例如,在转换时,字体大小发生了变化,docx中一页的文本内容占用了pdf中一页以上的内容。
我正在寻找一个稳定的解决方案,可以从 docx 中提取分页文本(不转换为 pdf 对我的整个解决方案来说会更好)。有人可以帮我解决这个问题吗?
python document text-extraction extract python-3.x
document ×2
text-extraction ×2
extract ×1
pdf ×1
pdf-extraction ×1
python ×1
python-2.7 ×1
python-3.x ×1