我正在尝试使用提取此 PDF文件中包含的文本Python
.
我正在使用PyPDF2模块,并具有以下脚本:
import PyPDF2
pdf_file = open('sample.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content
Run Code Online (Sandbox Code Playgroud)
当我运行代码时,我得到以下输出,该输出与PDF文档中包含的输出不同:
!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%
Run Code Online (Sandbox Code Playgroud)
如何在PDF文档中提取文本?
任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.
我们希望以数据xml
或json
格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.
是否有以编程方式从pdf中提取文本的替代品(商业或免费)?
Python版本2.7
我正在寻找有关如何使用PDFMiner和Python从PDF文件中提取文本的文档或示例.
看起来PDFMiner更新了他们的API,我发现的所有相关示例都包含过时的代码(类和方法已经改变).我发现的库使得从PDF文件中提取文本的任务更容易使用旧的PDFMiner语法,所以我不知道如何做到这一点.
事实上,我只是看源代码,看看能否解决它.
我正在尝试使用pdfminer从pdf获取文本数据.我可以使用pdfminer命令行工具pdf2txt.py成功将此数据提取到.txt文件.我目前这样做,然后使用python脚本来清理.txt文件.我想将pdf提取过程合并到脚本中并为自己节省一步.
当我找到这个链接时,我以为我正在做某件事,但我没有成功解决任何问题.也许那里列出的功能需要再次更新,因为我使用的是更新版本的pdfminer.
我尝试的另一种方法是使用脚本在脚本中调用脚本os.system
.这也是不成功的.
我使用的是Python 2.7.1版本和pdfminer版本20110227.
如何使用Python将PDF文件转换为HTML?
我正在考虑谷歌做(或似乎做)索引PDF文件的线条.
我的最终目标是设置Apache以显示PDF文件的HTML,因此在这方面引领我的任何事情也将受到赞赏.
我已经使用命令pip install pydf成功安装了pyPdf模块但是当我使用import命令使用模块时,我收到以下错误:
enC:\Anaconda3\lib\site-packages\pyPdf\__init__.py in <module>()
1 from pdf import PdfFileReader, PdfFileWriter
2 __all__ = ["pdf"]
ImportError: No module named 'pdf'
Run Code Online (Sandbox Code Playgroud)
我该怎么办?我也安装了pdf模块,但错误仍然没有消失.
我需要找到两个pdf文件之间的区别.有没有任何python相关工具有一个功能直接给出2 PDF的差异?
我有一个pdf文件.它包含四列,所有页面都没有网格线.他们是学生的标志.
我想对这种分布进行一些分析.(直方图,折线图等).
我想将这个pdf文件解析为电子表格或HTML文件(我可以很容易地解析).
pdf的链接是:
这是一份公开文件,可以在任何人公开使用.
注意:我知道这可以通过将文件从adobe reader导出到文本然后将其导入Libre Calc或Excel来完成.但我想用python脚本来做这件事.
请帮我解决这个问题.规格:Windows 7 Python 2.7
我有一个 pdf 文件,我想替换 pdf 文件中的一些文本并生成新的 pdf。我怎么能在python中做到这一点?我试过 reportlab ,reportlab 没有任何功能来搜索文本和替换它。我可以使用什么其他模块?
我正在制作一个pdf文件.该pdf中有多个表格.
根据pdf中给出的表名,我想使用python从该表中获取数据.
我从事过html,xlm解析,但从未使用过pdf.
谁能告诉我如何使用python从pdf中获取表格?
pdf ×8
python ×8
pdfminer ×2
pypdf ×2
apache ×1
extraction ×1
ghostscript ×1
html ×1
pdf-scraping ×1
python-3.x ×1
reportlab ×1
text ×1