到目前为止,我正在成功使用pdfminer pdf2txt.py模块.
但是在两列格式化的pdf文件中出现问题.模块将文本检索到单个列中,这会在行的末尾生成许多拆分字.例:
化学成分和细胞成分的功能特性,无论是物理还是化学.
*请注意,单词由' - '字符分隔.
我想要的是自定义命令,以便在行的末尾单词显示为一个整体,因此不会丢失信息.可能通过添加行参数或字符边距,特定于' - '字符替换为反斜杠?
我还想知道是否有办法循环命令并使其解析一个充满pdf文件的目录,每次生成一个以原始命名的不同输出文本文件?
我不知道怎么做.
| 归档时间: |
|
| 查看次数: |
854 次 |
| 最近记录: |