相关疑难解决方法(0)

用于将PDF转换为文本的Python模块

哪些是将PDF文件转换为文本的最佳Python模块？

python pdf text-extraction pdf-scraping

cnu*_*cnu

2017 07-10

378
推荐指数

9
解决办法

32万
查看次数

从python中执行命令行程序

可能重复:
在Python中调用外部命令

我正在构建一个Web应用程序,它将操纵(填充,混合,合并等)声音文件,我发现sox完全符合我的要求.Sox是一个linux命令行程序,让我感到有点不舒服的是让python web应用程序在我的服务器上基于每个请求启动新的sox进程.

例:

import os
os.system('sox input.wav -b 24 output.aiff rate -v -L -b 90 48k')

Run Code Online (Sandbox Code Playgroud)

整个设置对我来说似乎有点不稳定.

所以我的问题是,在python(或任何脚本语言)Web应用程序中运行命令行程序的最佳实践是什么？

为了绕过整个请求响应周期,消息队列将是一件要实现的事情.但还有其他方法可以让这些东西更优雅吗？

python command-line

Mat*_*ias

2017 05-23

260
推荐指数

2
解决办法

47万
查看次数

在 Python 中搜索并替换 pdf 中的文本

我正在编写邮件合并软件作为 Python Web 应用程序的一部分。

我有一个名为的模板letter.pdf，它是从 MS Word 文件生成的，其中包含文本 {name}，其中将包含居民的姓名。我还有一份 c 的清单。100 个居民的姓名。

我想做的是读入letter.pdf搜索"{name}"并将其替换为居民的姓名（对于每个居民），然后将结果写入另一个pdf。然后，我想将所有这些 pdf 收集到一个大 pdf（每个字母一页）中，我的网络应用程序的用户将打印出来以创建他们的字母。

有没有任何 Python 库可以做到这一点？我看过 pdfrw 和 pdfminer 但我看不出他们能够在哪里做到这一点。

（注意：我还有 MS Word 文件，所以如果有另一种使用它的方法，而不是通过 pdf，那也可以完成这项工作。）

python pdf

Phi*_*unt

2022 08-30

12
推荐指数

3
解决办法

4万
查看次数

使用Python搜索和替换PDF中的占位符文本

我需要生成模板文档的自定义PDF副本.最简单的办法-我想-是创建具有这样的定制需要的情况发生,即一些占位符文本源PDF <first_name>和<last_name>,然后用正确的值替换这些.

我搜索过高和低,但实际上没有办法基本上采用源模板PDF,用实际值替换占位符并写入新的PDF？

我查看了PyPDF2和ReportLab,但似乎都无法做到.有什么建议？我的大多数搜索都使用了Perl应用程序CAM :: PDF,但我更喜欢将它全部保存在Python中.

python pdf

unc*_*ase

2016 09-27

8
推荐指数

2
解决办法

5491
查看次数

如何使用python替换/删除pdf中的文本？

我有隐藏pdf部分的代码（仅用白色多边形覆盖），但是问题是，文本仍然存在，如果您按ctrl-f，仍然可以找到它。

我的目标是实际从pdf本身删除文本。使用pdfminer，我设法从pdf中提取了文本，但我不知道是否有可能仅用一些空白来“替换”文本。使用python这样的事情可能吗？仅仅提取是不够的。我需要将文本从PDF中删除

python pdf python-3.x

Wal*_*ace

lucky-day

8
推荐指数

1
解决办法

2040
查看次数

如何使用 Python 删除 PDF 中的文本

我正在创建一个 python 脚本来编辑 PDF 中的文本。

我有这个 Python 代码，它允许我将文本添加到 PDF 文件的特定位置。

import PyPDF2
import io
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
import sys

packet = io.BytesIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
# Insert code into specific position
can.drawString(300, 115, "Hello world")
can.save()
#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PyPDF2.PdfFileReader(packet)
# read your existing PDF
existing_pdf = PyPDF2.PdfFileReader(open("original.pdf", "rb"))
num_pages = existing_pdf.numPages 
output = PyPDF2.PdfFileWriter()
# add the "watermark" …

Run Code Online (Sandbox Code Playgroud)

python pdf reportlab pypdf

Gab*_*ini

2017 07-20

5
推荐指数

1
解决办法

1万
查看次数