使用pdfminer pdf2txt.py模块处理多列布局

5 python pdf text nlp

到目前为止,我正在成功使用pdfminer pdf2txt.py模块.

但是在两列格式化的pdf文件中出现问题.模块将文本检索到单个列中,这会在行的末尾生成许多拆分字.例:

化学成分和细胞成分的功能特性,无论是物理还是化学.

*请注意,单词由' - '字符分隔.

我想要的是自定义命令,以便在行的末尾单词显示为一个整体,因此不会丢失信息.可能通过添加行参数或字符边距,特定于' - '字符替换为反斜杠？

我还想知道是否有办法循环命令并使其解析一个充满pdf文件的目录,每次生成一个以原始命名的不同输出文本文件？

我不知道怎么做.

归档时间：	12 年，9 月前
查看次数：	854 次
最近记录：	12 年，9 月前

从apply pandas返回多个列 63

AttributeError:无法在python中设置属性 59

从c ++程序调用python进行分发 48

如何测试运行我的代码的机器上是否已安装nltk资源？ 16

非常快的文本文件处理(C++) 10

使用iTextSharp读取/修改PDF元数据 8

水平马氏化 6

从Asp.net MVC控制器返回Pdf文档 5

Python Reportlab 单位厘米和英寸的转换方式不同 5

我正在尝试使用“Pdf 创建库”在 flutter 应用程序中生成 pdf。当用其他语言生成 pdf 时，它会出现异常 4

比较Git中的两个分支？ 2149

如何在C#中生成随机int数？ 1792

接口和抽象类之间有什么区别？ 1705

使当前的Git分支成为主分支 1555

<meta charset ="utf-8"> vs <meta http-equiv ="Content-Type"> 1499

类型检查:typeof,GetType还是？ 1435

什么是C++ 11中的lambda表达式？ 1408

安全地将JSON字符串转换为对象 1298

Visual Studio中的构建解决方案,重建解决方案和清洁解决方案之间的区别？ 1081

如何将本地jar文件添加到Maven项目？ 1053