我正在尝试使用pdfminer从pdf获取文本数据.我可以使用pdfminer命令行工具pdf2txt.py成功将此数据提取到.txt文件.我目前这样做,然后使用python脚本来清理.txt文件.我想将pdf提取过程合并到脚本中并为自己节省一步.
当我找到这个链接时,我以为我正在做某件事,但我没有成功解决任何问题.也许那里列出的功能需要再次更新,因为我使用的是更新版本的pdfminer.
我尝试的另一种方法是使用脚本在脚本中调用脚本os.system.这也是不成功的.
我使用的是Python 2.7.1版本和pdfminer版本20110227.
我已经阅读了许多其他stackoverflow答案,但还没有找到令人满意的答案,但是以前有人问过。当我尝试使用PyPDF2读取pdf文档时,它会将句子中的所有单词合并为一个连续的字符串。任何人在弄清楚如何避免这种情况方面都取得了进展。下面是代码
import PyPDF2
import pandas as pd
import struct as struct
from nltk import word_tokenize
pdfFileObj = open("notes.pdf", 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
## reading pages fine
print(type(pdfReader.numPages))
## read in the pages
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
Run Code Online (Sandbox Code Playgroud)
以下是输出示例
2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics.
3)Datasummarization(graphicalandnumerical)
4)Probabilityandrandomvariables
Run Code Online (Sandbox Code Playgroud)