相关疑难解决方法(0)

如何从PDF文件中提取文本?

我正在尝试使用提取 PDF文件中包含的文本Python.

我正在使用PyPDF2模块,并具有以下脚本:

import PyPDF2
pdf_file = open('sample.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content
Run Code Online (Sandbox Code Playgroud)

当我运行代码时,我得到以下输出,该输出与PDF文档中包含的输出不同:

!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%
Run Code Online (Sandbox Code Playgroud)

如何在PDF文档中提取文本?

python pdf

146
推荐指数
17
解决办法
24万
查看次数

如何从PDF中提取文本?

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xmljson格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)?

pdf text text-extraction ghostscript extraction

141
推荐指数
10
解决办法
23万
查看次数

使用Python中的PDFMiner从PDF文件中提取文本?

Python版本2.7

我正在寻找有关如何使用PDFMiner和Python从PDF文件中提取文本的文档示例.

看起来PDFMiner更新了他们的API,我发现的所有相关示例都包含过时的代码(类和方法已经改变).我发现的库使得从PDF文件中提取文本的任务更容易使用旧的PDFMiner语法,所以我不知道如何做到这一点.

事实上,我只是看源代码,看看能否解决它.

python text-extraction pdfminer

71
推荐指数
4
解决办法
10万
查看次数

如何将pdfminer用作库

我正在尝试使用pdfminer从pdf获取文本数据.我可以使用pdfminer命令行工具pdf2txt.py成功将此数据提取到.txt文件.我目前这样做,然后使用python脚本来清理.txt文件.我想将pdf提取过程合并到脚本中并为自己节省一步.

当我找到这个链接时,我以为我正在做某件事,但我没有成功解决任何问题.也许那里列出的功能需要再次更新,因为我使用的是更新版本的pdfminer.

我也尝试过这里显示的功能,但它也没有用.

我尝试的另一种方法是使用脚本在脚本中调用脚本os.system.这也是不成功的.

我使用的是Python 2.7.1版本和pdfminer版本20110227.

python pdf pdfminer

65
推荐指数
6
解决办法
7万
查看次数

使用Python将PDF转换为HTML

如何使用Python将PDF文件转换为HTML?

我正在考虑谷歌做(或似乎做)索引PDF文件的线条.

我的最终目标是设置Apache以显示PDF文件的HTML,因此在这方面引领我的任何事情也将受到赞赏.

html python apache pdf

23
推荐指数
1
解决办法
4万
查看次数

无法使用pypdf模块

我已经使用命令pip install pydf成功安装了pyPdf模块但是当我使用import命令使用模块时,我收到以下错误:

enC:\Anaconda3\lib\site-packages\pyPdf\__init__.py in <module>()
1 from pdf import PdfFileReader, PdfFileWriter
  2 __all__ = ["pdf"]
ImportError: No module named 'pdf'
Run Code Online (Sandbox Code Playgroud)

我该怎么办?我也安装了pdf模块,但错误仍然没有消失.

pypdf python-3.x

15
推荐指数
5
解决办法
3万
查看次数

如何在python中获取两个PDF文件的差异?

我需要找到两个pdf文件之间的区别.有没有任何python相关工具有一个功能直接给出2 PDF的差异?

python pdf

7
推荐指数
3
解决办法
1万
查看次数

使用python解析pdf

我有一个pdf文件.它包含四列,所有页面都没有网格线.他们是学生的标志.

我想对这种分布进行一些分析.(直方图,折线图等).

我想将这个pdf文件解析为电子表格或HTML文件(我可以很容易地解析).

pdf的链接是:

全文

这是一份公开文件,可以在任何人公开使用.

注意:我知道这可以通过将文件从adobe reader导出到文本然后将其导入Libre Calc或Excel来完成.但我想用python脚本来做这件事.

请帮我解决这个问题.规格:Windows 7 Python 2.7

python pdf

7
推荐指数
1
解决办法
2万
查看次数

Python:如何替换pdf中的文本

我有一个 pdf 文件,我想替换 pdf 文件中的一些文本并生成新的 pdf。我怎么能在python中做到这一点?我试过 reportlab ,reportlab 没有任何功能来搜索文本和替换它。我可以使用什么其他模块?

python pdf reportlab pypdf

6
推荐指数
1
解决办法
1万
查看次数

使用python处理pdf表

我正在制作一个pdf文件.该pdf中有多个表格.
根据pdf中给出的表名,我想使用python从该表中获取数据.

我从事过html,xlm解析,但从未使用过pdf.
谁能告诉我如何使用python从pdf中获取表格?

python pdf pdf-scraping

5
推荐指数
3
解决办法
1万
查看次数