使用Python在现有PDF文档中添加文本

Uku*_*kit 10 python pdf-generation imagemagick

我正在尝试将pdf转换为与我的pdf(A4页面)相同的大小.

convert my_pdf.pdf -density 300x300 -page A4 my_png.png
Run Code Online (Sandbox Code Playgroud)

但是,生成的png文件是595px×842px,它应该是72 dpi的分辨率.我正在考虑使用PIL在一些pdf字段上写一些文本并将其转换回PDF.但目前图像出错了.

编辑:我从错误的角度接近问题.正确的方法根本不包括imagemagick.

Uku*_*kit 30

在搜索了一些后,我终于找到了解决方案:事实证明毕竟是正确的方法.然而,我觉得它不够冗长.看来这张海报可能是从这里取的(相同的变量名等).

想法:使用Reportlab创建新的空白PDF,其中只包含文本字符串.然后使用pyPdf将其合并/添加为水印.

from pyPdf import PdfFileWriter, PdfFileReader
import StringIO
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
packet = StringIO.StringIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(100,100, "Hello world")
can.save()

#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader(file("mypdf.pdf", "rb"))
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page.mergePage(new_pdf.getPage(0))
output.addPage(page)
# finally, write "output" to a real file
outputStream = file("/home/joe/newpdf.pdf", "wb")
output.write(outputStream)
outputStream.close()
Run Code Online (Sandbox Code Playgroud)

希望这有助于其他人.


小智 9

我刚刚尝试了上面的解决方案,但是我在Python3中运行时遇到了一些麻烦.所以,我想分享我的修改.改编后的代码如下:

from PyPDF2 import PdfFileWriter, PdfFileReader
import io
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter

packet = io.BytesIO()

# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(100, 100, "Hello world")
can.save()

# move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader(open("mypdf.pdf", "rb"))
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page2 = new_pdf.getPage(0)
page.mergePage(page2)
output.addPage(page)
# finally, write "output" to a real file
outputStream = open("newpdf.pdf", "wb")
output.write(outputStream)
outputStream.close()
Run Code Online (Sandbox Code Playgroud)

现在page.mergePage抛出一个错误.原来是pypdf2中的移植错误.请参考这个问题的解决方案:移植到Python3:PyPDF2 mergePage()给出TypeError


agf*_*agf 5

您应该查看Add text to Existing PDF using Python以及Python as PDF Editing and Processing Framework。这些将为您指明正确的方向。

如果您按照问题中的建议进行操作,当您导出回 时.pdf,它实际上只是嵌入在 中的图像文件.pdf,而不是文本。