相关疑难解决方法(0)

如何从PDF文件中提取文本？

我正在尝试使用提取此 PDF文件中包含的文本Python.

我正在使用PyPDF2模块,并具有以下脚本:

import PyPDF2
pdf_file = open('sample.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content

Run Code Online (Sandbox Code Playgroud)

当我运行代码时,我得到以下输出,该输出与PDF文档中包含的输出不同:

!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%

Run Code Online (Sandbox Code Playgroud)

如何在PDF文档中提取文本？

python pdf

Sim*_*ity

2018 10-06

146
推荐指数

17
解决办法

24万
查看次数

如何从PDF中提取文本？

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗？我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xml或json格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)？

pdf text text-extraction ghostscript extraction

Bud*_*007

2013 03-10

141
推荐指数

10
解决办法

23万
查看次数

使用Python中的PDFMiner从PDF文件中提取文本？

Python版本2.7

我正在寻找有关如何使用PDFMiner和Python从PDF文件中提取文本的文档或示例.

看起来PDFMiner更新了他们的API,我发现的所有相关示例都包含过时的代码(类和方法已经改变).我发现的库使得从PDF文件中提取文本的任务更容易使用旧的PDFMiner语法,所以我不知道如何做到这一点.

事实上,我只是看源代码,看看能否解决它.

python text-extraction pdfminer

Duc*_*her

2014 10-22

71
推荐指数

4
解决办法

10万
查看次数

如何将pdfminer用作库

我正在尝试使用pdfminer从pdf获取文本数据.我可以使用pdfminer命令行工具pdf2txt.py成功将此数据提取到.txt文件.我目前这样做,然后使用python脚本来清理.txt文件.我想将pdf提取过程合并到脚本中并为自己节省一步.

当我找到这个链接时,我以为我正在做某件事,但我没有成功解决任何问题.也许那里列出的功能需要再次更新,因为我使用的是更新版本的pdfminer.

我也尝试过这里显示的功能,但它也没有用.

我尝试的另一种方法是使用脚本在脚本中调用脚本os.system.这也是不成功的.

我使用的是Python 2.7.1版本和pdfminer版本20110227.

python pdf pdfminer

jme*_*ich

2017 05-23

65
推荐指数

6
解决办法

7万
查看次数

使用Python将PDF转换为HTML

如何使用Python将PDF文件转换为HTML？

我正在考虑谷歌做(或似乎做)索引PDF文件的线条.

我的最终目标是设置Apache以显示PDF文件的HTML,因此在这方面引领我的任何事情也将受到赞赏.

html python apache pdf

Mar*_*ara

lucky-day

23
推荐指数

1
解决办法

4万
查看次数

无法使用pypdf模块

我已经使用命令pip install pydf成功安装了pyPdf模块但是当我使用import命令使用模块时,我收到以下错误:

enC:\Anaconda3\lib\site-packages\pyPdf\__init__.py in <module>()
1 from pdf import PdfFileReader, PdfFileWriter
  2 __all__ = ["pdf"]
ImportError: No module named 'pdf'

Run Code Online (Sandbox Code Playgroud)

我该怎么办？我也安装了pdf模块,但错误仍然没有消失.

pypdf python-3.x

Nit*_*jay

lucky-day

15
推荐指数

5
解决办法

3万
查看次数