标签: ghostscript

检测 pdf 页面是否颠倒

我们使用 php、pypdfocr 和 pdftotext 进行 OCR 并从已扫描或传真给我们的文档中提取文本。问题是当文档被颠倒扫描或传真时，或者某些页面打算横向阅读时（因此文本在页面上旋转 90 度）

我尝试过的事情：

在 tessdata cp eng.traineddata osd.traineddata 中

对于具有 90 度文本的页面，生成的 OCR 文本图层还不错，但是颠倒的页面，它会 OCR 中的每个单词并将其翻转到位，这样如果“这是一个测试”出现在文档中但颠倒了，那么文本层可能会显示“test a is This”

如果有一种方法可以检测到页面上下颠倒，我可以在通过 OCR 运行之前使用 pdftk 旋转页面（或者，如果是 OCR，我可以删除文本层，然后在 OCR 中再次运行它）使用pdftk进行旋转）

此时可以从 Linux CLI 执行的任何解决方案都是可行的解决方案。

php tesseract ghostscript pdftk

Log*_*kos

lucky-day

4
推荐指数

1
解决办法

8511
查看次数

Ghostscript 9.23 扁平化 PDF 注释

在 Ghostscript 9.21 之前，可以使用以下代码将注释平铺到文档中：

c:\gs\gs9.23\bin\gswin64c  -dSAFER -dDOPDFMARKS -dBATCH -dNOPAUSE 
-sDEVICE=pdfwrite -dCompatibilityLevel=1.3
-sFONTPATH=c:/gs/fonts;%windir%/fonts;. -sPDFPassword= 
-dPDFSETTINGS=/prepress -dPassThroughJPEGImages=true 
-sOutputFile=file_noPW.pdf  file.pdf

Run Code Online (Sandbox Code Playgroud)

这将使注释永久保留在文件中，就像 Acrobat 的印前检查选项一样。从版本 9.21 开始，这种情况不再发生。

有没有办法扁平化注释？我用它来确保使用 Latex 导入的 pdf 具有所有注释，因为 pdflatex 和 xelatex 不导入注释。

ghostscript

Sha*_*Way

lucky-day

4
推荐指数

1
解决办法

3445
查看次数

使用camelot提取表数据时出现的问题且没有错误消息

我正在尝试使用camelot从此pdf链接中提取表格，但是，当尝试以下代码时：

import camelot

file = 'relacao_medicamentos_rename_2020.pdf'

tables = camelot.read_pdf(file)
tables.export('relacao_medicamentos_rename_2020.csv', f='csv', compress=False)

Run Code Online (Sandbox Code Playgroud)

简单什么都不会发生。这很奇怪，因为当我尝试相同的代码但使用此 pdf链接时效果非常好。

python ghostscript pdf-extraction python-camelot

Gab*_*uto

2021 12-30

4
推荐指数

1
解决办法

5210
查看次数

如何将许多tif文件合并到单个tif文件？

我有很多tif文件,我想将其转换为单个文件.我在Ubuntu 11.04上,我该怎么办？我尝试将tif转换为单个pdf,但是当我将pdf转换为tif时我卡住了,我用这个命令使用ghoscript:

gs -dNOPAUSE -q -g300x300 -sDEVICE=tiffg4 -dBATCH -sOutputFile=result.tif source.pdf

Run Code Online (Sandbox Code Playgroud)

但结果并不好.:(.对我的问题有任何建议吗？

谢谢你.

pdf merge tiff ghostscript

adh*_*own

lucky-day

3
推荐指数

2
解决办法

1万
查看次数

使用Ghostscript从PDF中提取文本 - 未知设备:txtwrite

我正在尝试从PDF中提取文本.我正在使用Ghostscript,但是当我运行下面的命令时

gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite mypdf.pdf

发生错误.这一个在下面.

Unknown device: txtwrite
Unrecoverable error: undefined in .uninstallpagedevice
Operand stack:
             defaultdevice

Run Code Online (Sandbox Code Playgroud)

有什么想法吗？是不是txtwrite默认的ghostscript设备？

这是输出 gs -v

GPL Ghostscript 8.70 (2009-07-31)

Run Code Online (Sandbox Code Playgroud)

那个操作系统版本CentOS release 5.8 (Final).

pdf text extract ghostscript

ale*_*rio

2012 08-31

3
推荐指数

1
解决办法

2313
查看次数

从PDF中删除所有矢量路径

我正在寻找一种path从PDF文件中删除所有对象的方法.

我怀疑这可能是用Adobe Acrobat中的javascript完成的,但我真的很感激使用ghostscript或mupdf工具做一些提示.

无论如何,任何可行的解决方案都是正确的答案

pdf ghostscript mupdf

the*_*eta

lucky-day

3
推荐指数

1
解决办法

1670
查看次数

Ghostscript SVG输出设备

我被认为可以从Ghostscript输出到SVG,如本博客文章所述:

gs -dBATCH -dSAFER -dNOPAUSE -sDEVICE=svg -sOutputFile=Logo.svg Logo.pdf

但是,我只是得到"未知设备:svg"

我正在使用Ghostscript 9.06

我的问题是:我从哪里获得svg设备,如何安装？(红帽x64)

到目前为止,我已经尝试了谷歌搜索(许多死胡同,但没有真正提到这个输出设备),并在Ghostscript网站上查找.

pdf svg ghostscript

Cod*_*der

lucky-day

3
推荐指数

1
解决办法

5092
查看次数

如何使用Ghostscript将PDF的大小精确调整为8.5 x 11英寸？

考虑这个PDF。我正在尝试使用以下命令将其转换为标准字母大小（8.5 x 11）。

gs -dFIXEDMEDIA -dBATCH -dNOPAUSE -sPAPERSIZE=letter \
   -dPDFFitPage -q -sDEVICE=pdfwrite -sOutputFile=out.pdf \
    dean08mapreduce.pdf

Run Code Online (Sandbox Code Playgroud)

这是pdfinfo输出。

Producer:       GPL Ghostscript 9.10
CreationDate:   Mon Nov 17 18:25:01 2014
ModDate:        Mon Nov 17 18:25:01 2014
Tagged:         no
Form:           none
Pages:          7
Encrypted:      no
Page size:      596.225 x 792 pts
Page rot:       0
File size:      126908 bytes
Optimized:      no
PDF version:    1.4

Run Code Online (Sandbox Code Playgroud)

这是pdfinfo原始文件：

Producer:       Creo Normalizer JTP
CreationDate:   Fri Dec 21 09:09:07 2007
ModDate:        Fri Dec 21 14:46:23 …

Run Code Online (Sandbox Code Playgroud)

pdf ghostscript

mer*_*011

2017 05-23

3
推荐指数

1
解决办法

1625
查看次数

Ghostscript.NET.dll将pdf打印到指定的打印机

如何使用ghostscript api打印pdf.我试过谷歌,但仍然没有得到适当的解决方案.请帮我完成这项任务.

c# vb.net ghostscript winforms ghostscript.net

Raj*_*ara

2015 02-03

3
推荐指数

1
解决办法

8578
查看次数

python ghostscript不关闭输出文件

我正在尝试将一页或多页的PDF文件转换为每页的图像。这非常像这里的问题。实际上，我正在尝试使用该帖子中@Idan Yacobi的代码来完成此任务。他的代码如下所示：

import ghostscript

def pdf2jpeg(pdf_input_path, jpeg_output_path):
    args = ["pdf2jpeg", # actual value doesn't matter
            "-dNOPAUSE",
            "-sDEVICE=jpeg",
            "-r144",
            "-sOutputFile=" + jpeg_output_path,
            pdf_input_path]
    ghostscript.Ghostscript(*args)

Run Code Online (Sandbox Code Playgroud)

当我运行代码时，我从python得到以下输出： ##### 238647312 c_void_p(238647312L)

当我查看应该在其中创建新.jpg图像的文件夹时，那里有一个具有新名称的文件。但是，当我尝试打开文件时，图像预览显示“ Windows Photo Viewer无法打开该图片，因为该图片正在其他程序中进行编辑。”

似乎出于某种原因，Ghostscript打开了文件并写入了文件，但是在完成后没有关闭文件。我有什么办法可以强迫这种情况发生？还是我想念其他东西？

我已经尝试将上面的最后一行更改为下面的代码，以在完成后显式关闭ghostscript。

GS = ghostscript.Ghostscript(*args)
GS.exit()

Run Code Online (Sandbox Code Playgroud)

python pdf jpeg ghostscript

Jed*_*Jed

lucky-day

3
推荐指数

1
解决办法

937
查看次数

标签统计

ghostscript ×10

pdf ×6

python ×2

c# ×1

extract ×1

ghostscript.net ×1

jpeg ×1

merge ×1

mupdf ×1

pdf-extraction ×1

pdftk ×1

php ×1

python-camelot ×1

svg ×1

tesseract ×1

text ×1

tiff ×1

vb.net ×1

winforms ×1

标签 统计

标签统计