哪些是将PDF文件转换为文本的最佳Python模块?
可能重复:
在Python中调用外部命令
我正在构建一个Web应用程序,它将操纵(填充,混合,合并等)声音文件,我发现sox完全符合我的要求.Sox是一个linux命令行程序,让我感到有点不舒服的是让python web应用程序在我的服务器上基于每个请求启动新的sox进程.
例:
import os
os.system('sox input.wav -b 24 output.aiff rate -v -L -b 90 48k')
Run Code Online (Sandbox Code Playgroud)
整个设置对我来说似乎有点不稳定.
所以我的问题是,在python(或任何脚本语言)Web应用程序中运行命令行程序的最佳实践是什么?
为了绕过整个请求响应周期,消息队列将是一件要实现的事情.但还有其他方法可以让这些东西更优雅吗?
我正在编写邮件合并软件作为 Python Web 应用程序的一部分。
我有一个名为 的模板letter.pdf,它是从 MS Word 文件生成的,其中包含文本 {name},其中将包含居民的姓名。我还有一份 c 的清单。100 个居民的姓名。
我想做的是读入letter.pdf搜索"{name}"并将其替换为居民的姓名(对于每个居民),然后将结果写入另一个pdf。然后,我想将所有这些 pdf 收集到一个大 pdf(每个字母一页)中,我的网络应用程序的用户将打印出来以创建他们的字母。
有没有任何 Python 库可以做到这一点?我看过 pdfrw 和 pdfminer 但我看不出他们能够在哪里做到这一点。
(注意:我还有 MS Word 文件,所以如果有另一种使用它的方法,而不是通过 pdf,那也可以完成这项工作。)
我需要生成模板文档的自定义PDF副本.最简单的办法-我想-是创建具有这样的定制需要的情况发生,即一些占位符文本源PDF <first_name>和<last_name>,然后用正确的值替换这些.
我搜索过高和低,但实际上没有办法基本上采用源模板PDF,用实际值替换占位符并写入新的PDF?
我查看了PyPDF2和ReportLab,但似乎都无法做到.有什么建议?我的大多数搜索都使用了Perl应用程序CAM :: PDF,但我更喜欢将它全部保存在Python中.
我有隐藏pdf部分的代码(仅用白色多边形覆盖),但是问题是,文本仍然存在,如果您按ctrl-f,仍然可以找到它。
我的目标是实际从pdf本身删除文本。使用pdfminer,我设法从pdf中提取了文本,但我不知道是否有可能仅用一些空白来“替换”文本。使用python这样的事情可能吗?仅仅提取是不够的。我需要将文本从PDF中删除
我正在创建一个 python 脚本来编辑 PDF 中的文本。
我有这个 Python 代码,它允许我将文本添加到 PDF 文件的特定位置。
import PyPDF2
import io
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
import sys
packet = io.BytesIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
# Insert code into specific position
can.drawString(300, 115, "Hello world")
can.save()
#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PyPDF2.PdfFileReader(packet)
# read your existing PDF
existing_pdf = PyPDF2.PdfFileReader(open("original.pdf", "rb"))
num_pages = existing_pdf.numPages
output = PyPDF2.PdfFileWriter()
# add the "watermark" …Run Code Online (Sandbox Code Playgroud) 我正在做最后一年的项目,所以我正在开发一个用户可以阅读 PDF 的网站。我添加了一些功能,例如将货币转换为本国货币。我在我的项目中使用flask和pymuPDF,我不知道如何修改pdf中的文本,有人可以帮助我解决这个问题吗?
我听说这里使用 pymuPDF 或 pypdf 可以工作,但我没有找到任何替换文本的解决方案。
python ×7
pdf ×5
pypdf ×2
command-line ×1
flask ×1
pdf-scraping ×1
pymupdf ×1
python-3.x ×1
reportlab ×1