小编Kur*_*fle的帖子

使用LibreOffice通过命令行将.xls转换为.pdf

我正在尝试通过Ubuntu上的命令行将.xls文件转换为.pdf使用LibreOffice.我有一个关于.xls文件的报告,在单元格的背景中有一些颜色等.

问题是当我转换.xls文件时,.pdf丢失了原始格式.每个页面几乎在一半中断,一页的内容显示在两个不同的页面中.

有没有人知道如何通过保留原始格式将.xls文件转换为.pdf命令行？
或者一些技巧来设置.pdf页面的大小不打破页面？(也可以通过命令行)

我用来进行转换的代码是:

soffice --headless --convert-to pdf:"impress_pdf_Export" filename.xls

Run Code Online (Sandbox Code Playgroud)

pdf bash excel xls libreoffice

Rhe*_*els

2015 04-17

5
推荐指数

1
解决办法

8959
查看次数

如何缩小tesseract生成的PDF的大小？

我的（网络）应用程序的设置如下：我得到用户上传的PDF文件，在它们上运行OCR并向他们显示OCRed PDF。由于所有内容都在线，因此最小化生成的PDF文件的大小是减少用户加载和等待时间的关键。

我从用户那里收到的文件是sample.pdf（我创建了一个包含原始文件以及在此处生成的文件的存档：https : //dl.dropboxusercontent.com/u/1390155/tess-files/sample .zip）。我使用tesseract 3.04并执行以下操作：

gs -r300 -sDEVICE=tiff24nc -dBATCH -dNOPAUSE -sOutputFile=sample.tiff sample.pdf
tesseract sample.tiff sample-tess -l fra -psm 1 pdf

Run Code Online (Sandbox Code Playgroud)

OCR的结果很好，但是现在生成的PDF的大小约为2.5倍

原始pdf文件大小：60k
最终PDF大小：14.7万

所以我问你，如何在保持OCR结果的同时减小生成的PDF的大小？

一种明显的解决方案是在生成tiff时降低分辨率，但是我不想这样做，因为它可能会影响OCR结果。

我尝试的第二件事是使用ghostscript减少了tesseract后的PDF大小：

gs -o sample-down-300.pdf   -sDEVICE=pdfwrite   -dDownsampleColorImages=true \
   -dDownsampleGrayImages=true   -dDownsampleMonoImages=true  \
   -dColorImageResolution=300   -dGrayImageResolution=300  \
   -dMonoImageResolution=300   -dColorImageDownsampleThreshold=1.0  \
   -dGrayImageDownsampleThreshold=1.5   -dMonoImageDownsampleThreshold=1.0 \
    sample-tess.pdf

Run Code Online (Sandbox Code Playgroud)

这会有所帮助，生成的文件只有101K，因此约为原始文件的1.5倍。我可以接受，但它似乎也会影响OCR结果。例如，现在缺少“餐厅”和“比萨店”（第二行）之间的空白。

带有ghostscript的另一个（更简单）选项（使用ebook参数）导致PDF文件中的质量较差的43k文件，并且存在缺少空白的相同问题：

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook \
    -dNOPAUSE -dBATCH  -dQUIET -sOutputFile=sample-ebook.pdf \
     sample-tess.pdf

Run Code Online (Sandbox Code Playgroud)

较低质量的PDF很好，但是我还是不想在OCR上妥协。

我已经使用PNG和JPEG完成了其他测试，但是OCR结果总是下降（甚至略有下降），并且结果PDF不会更小。例如，使用PNG：

convert -density 300 sample.pdf -transparent white sample.png
tesseract sample.png sample-tess-png -l fra -psm 1 pdf

Run Code Online (Sandbox Code Playgroud)

总数（55.50）丢失，最终PDF大小为149k。 …

pdf ocr pdf-generation tesseract ghostscript

seb*_*seb

2014 11-15

5
推荐指数

1
解决办法

2976
查看次数

使用Windows上的Gnuplot控制指向ImageMagick的'-FX'功能的曲线公式

到目前为止,我在Windows平台上的ImageMagick网站上复制了生成的曲线公式示例有很多问题.

我终于解决了,并希望与您分享.

ImageMagick网站上的FX公式需要在ImageMagick中为Photoshop指定特定通道的自定义曲线调整.但是,当您尝试使用Windows复制时,网站上的示例可能会产生误导.

所以我的问题是:

为了从 Windows上的ImageMagick网站复制示例,我需要遵循哪些确切的步骤？

command-line curve gnuplot imagemagick notepad++

Tre*_*urs

2014 12-14

5
推荐指数

1
解决办法

789
查看次数

使用ImageMagick将具有嵌入式字体的SVG转换为JPEG

我想在Web服务器上将带有嵌入字体和图像的SVG渲染为JPEG。我尝试了ImageMagick，但是未使用嵌入字体。SVG的字体会发生变化，因此我需要一种不单独安装这些字体的方法。

如何使ImageMagick使用嵌入字体？

svg render imagemagick

Flo*_*ian

2014 12-18

5
推荐指数

0
解决办法

634
查看次数

使用ImageMagick删除收据图像边框

在使用tesseract-OCR引擎提取文本之前,我正在使用ImageMagick服务预处理收据图像.我需要删除收据的背景.我已经通过掩蔽来移除这里的边界.但是我无法为收据创建掩码.

但是,我试图从收据图像中删除阴影.

初始图像(示例收据)

在此输入图像描述

convert input.png -colorspace gray \
      \( +clone -blur 0x2 \) +swap -compose divide -composite \
      -linear-stretch 5%x0%   photocopy.png

Run Code Online (Sandbox Code Playgroud)

应用代码后:

在此输入图像描述

我已经尝试了下面的代码来制作除了白色到黑色的所有颜色,但这似乎并没有完全消除photocopy.png的背景.

convert receipt.jpg -fill black -fuzz 20% +opaque "#ffffff" black_border.jpg

Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

有没有办法删除收据图像的边框？或者从图像中创建任何类型的蒙版？注意:我需要删除具有不同背景的多个图像的噪点和边框.

ruby ocr tesseract imagemagick image-masking

San*_*rma

2015 01-06

5
推荐指数

1
解决办法

891
查看次数

是否可以使用“ pandoc”将.tex文件编译为PDF？

可以使用pandoc编译.tex文件吗？

我目前正在使用MacVim在MultiMarkdown中记下课堂笔记。这样，当我回到家时，我可以mmd2tex使用TexShop将.tex文件编译为PDF。效果很好，但是该过程实际上很耗时。

我想知道是否可以通过pandoc命令行使用几乎相同的方法来实现。我试图将原始的.txt文件直接转换为PDF，pandoc但遇到各种错误...

有人对此有解决方案吗？还是建议其他工作流程来做笔记？

pdf macos tex pandoc

Jon*_* LK

2015 04-10

5
推荐指数

1
解决办法

1675
查看次数

对PDF文件的每一页进行截图

如何从PDF 文件的每一页制作屏幕截图并将结果保存为 PHP 中的图像？是否可以？

php pdf ghostscript

New*_*ter

2015 02-19

5
推荐指数

1
解决办法

2470
查看次数

修改现有PDF以添加"NNN页面N"页脚

如何pdftk从命令行(或最好从Ruby)使用页面编号添加到预先存在的PDF的底部？

我正在寻找这种格式:

第1页,共2页
第2页,共2页

printing pdf postscript ghostscript pdftk

jrh*_*cks

2015 05-24

5
推荐指数

1
解决办法

1382
查看次数

CUPS打印PDF文件

如何判断lpr命令(CUPS)我的文件实际上是PDF？

lpr file.pdf

不会打印任何东西.

cups

von*_*hev

2017 07-18

4
推荐指数

1
解决办法

1万
查看次数

Pandoc 转换为 PDF 不提供彩色超文本链接

考虑以下pandoc通过latex.

你能识别那里的超文本链接吗？我也不是......事实证明，第二个 Kaplan Meier具有指向外部站点的功能齐全的链接。但是我们如何推测呢？

请注意，pandoc 序言中已经存在以下选项- 没有它，超链接将根本无法工作：

link-citations: true

Run Code Online (Sandbox Code Playgroud)

缺少一个“真正的”解决方案，我需要修改一些东西来为链接提供提示——可能是通过字体操作。

pandoc pandoc-citeproc

jav*_*dba

2019 11-16

4
推荐指数

2
解决办法

737
查看次数

标签统计

pdf ×5

ghostscript ×3

imagemagick ×3

ocr ×2

pandoc ×2

tesseract ×2

bash ×1

command-line ×1

cups ×1

curve ×1

excel ×1

gnuplot ×1

image-masking ×1

libreoffice ×1

macos ×1

notepad++ ×1

pandoc-citeproc ×1

pdf-generation ×1

pdftk ×1

php ×1

postscript ×1

printing ×1

render ×1

ruby ×1

svg ×1

tex ×1

xls ×1

标签 统计

小编Kur_fle的帖子

标签统计