相关疑难解决方法(0)

如何将pdfminer用作库

我正在尝试使用pdfminer从pdf获取文本数据.我可以使用pdfminer命令行工具pdf2txt.py成功将此数据提取到.txt文件.我目前这样做,然后使用python脚本来清理.txt文件.我想将pdf提取过程合并到脚本中并为自己节省一步.

当我找到这个链接时,我以为我正在做某件事,但我没有成功解决任何问题.也许那里列出的功能需要再次更新,因为我使用的是更新版本的pdfminer.

我也尝试过这里显示的功能,但它也没有用.

我尝试的另一种方法是使用脚本在脚本中调用脚本os.system.这也是不成功的.

我使用的是Python 2.7.1版本和pdfminer版本20110227.

python pdf pdfminer

jme*_*ich

2017 05-23

65
推荐指数

6
解决办法

7万
查看次数

PyPDF2坚持要删除所有空格

我已经阅读了许多其他stackoverflow答案，但还没有找到令人满意的答案，但是以前有人问过。当我尝试使用PyPDF2读取pdf文档时，它会将句子中的所有单词合并为一个连续的字符串。任何人在弄清楚如何避免这种情况方面都取得了进展。下面是代码

 import PyPDF2
 import pandas as pd

 import  struct as struct

 from nltk import word_tokenize

 pdfFileObj = open("notes.pdf", 'rb')

  pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

 ## reading pages fine
 print(type(pdfReader.numPages))

## read in the pages 
pageObj = pdfReader.getPage(0)

 print(pageObj.extractText())

Run Code Online (Sandbox Code Playgroud)

以下是输出示例

2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics.
3)Datasummarization(graphicalandnumerical)

4)Probabilityandrandomvariables

Run Code Online (Sandbox Code Playgroud)

python pypdf2

Ste*_*eve

lucky-day

5
推荐指数

1
解决办法

4336
查看次数