小编Kur*_*fle的帖子

使用LibreOffice通过命令行将.xls转换为.pdf

我正在尝试通过Ubuntu上的命令行将.xls文件转换为.pdf使用LibreOffice.我有一个关于.xls文件的报告,在单元格的背景中有一些颜色等.

问题是当我转换.xls文件时,.pdf丢失了原始格式.每个页面几乎在一半中断,一页的内容显示在两个不同的页面中.

  • 有没有人知道如何通过保留原始格式将.xls文件转换为.pdf命令行?
  • 或者一些技巧来设置.pdf页面的大小不打破页面?(也可以通过命令行)

我用来进行转换的代码是:

soffice --headless --convert-to pdf:"impress_pdf_Export" filename.xls
Run Code Online (Sandbox Code Playgroud)

pdf bash excel xls libreoffice

5
推荐指数
1
解决办法
8959
查看次数

如何缩小tesseract生成的PDF的大小?

我的(网络)应用程序的设置如下:我得到用户上传的PDF文件,在它们上运行OCR并向他们显示OCRed PDF。由于所有内容都在线,因此最小化生成的PDF文件的大小是减少用户加载和等待时间的关键。

我从用户那里收到的文件是sample.pdf(我创建了一个包含原始文件以及在此处生成的文件的存档:https : //dl.dropboxusercontent.com/u/1390155/tess-files/sample .zip)。我使用tesseract 3.04并执行以下操作:

gs -r300 -sDEVICE=tiff24nc -dBATCH -dNOPAUSE -sOutputFile=sample.tiff sample.pdf
tesseract sample.tiff sample-tess -l fra -psm 1 pdf
Run Code Online (Sandbox Code Playgroud)

OCR的结果很好,但是现在生成的PDF的大小约为2.5倍

  • 原始pdf文件大小:60k
  • 最终PDF大小:14.7万

所以我问你,如何在保持OCR结果的同时减小生成的PDF的大小?

一种明显的解决方案是在生成tiff时降低分辨率,但是我不想这样做,因为它可能会影响OCR结果。

我尝试的第二件事是使用ghostscript减少了tesseract后的PDF大小:

gs -o sample-down-300.pdf   -sDEVICE=pdfwrite   -dDownsampleColorImages=true \
   -dDownsampleGrayImages=true   -dDownsampleMonoImages=true  \
   -dColorImageResolution=300   -dGrayImageResolution=300  \
   -dMonoImageResolution=300   -dColorImageDownsampleThreshold=1.0  \
   -dGrayImageDownsampleThreshold=1.5   -dMonoImageDownsampleThreshold=1.0 \
    sample-tess.pdf 
Run Code Online (Sandbox Code Playgroud)

这会有所帮助,生成的文件只有101K,因此约为原始文件的1.5倍。我可以接受,但它似乎也会影响OCR结果。例如,现在缺少“餐厅”和“比萨店”(第二行)之间的空白。

带有ghostscript的另一个(更简单)选项(使用ebook参数)导致PDF文件中的质量较差的43k文件,并且存在缺少空白的相同问题:

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook \
    -dNOPAUSE -dBATCH  -dQUIET -sOutputFile=sample-ebook.pdf \
     sample-tess.pdf
Run Code Online (Sandbox Code Playgroud)

较低质量的PDF很好,但是我还是不想在OCR上妥协。

我已经使用PNG和JPEG完成了其他测试,但是OCR结果总是下降(甚至略有下降),并且结果PDF不会更小。例如,使用PNG:

convert -density 300 sample.pdf -transparent white sample.png
tesseract sample.png sample-tess-png -l fra -psm 1 pdf
Run Code Online (Sandbox Code Playgroud)

总数(55.50)丢失,最终PDF大小为149k。 …

pdf ocr pdf-generation tesseract ghostscript

5
推荐指数
1
解决办法
2976
查看次数

使用Windows上的Gnuplot控制指向ImageMagick的'-FX'功能的曲线公式

到目前为止,我在Windows平台上的ImageMagick网站上复制了生成的曲线公式示例有很多问题.

我终于解决了,并希望与您分享.

ImageMagick网站上的FX公式需要在ImageMagick中为Photoshop指定特定通道的自定义曲线调整.但是,当您尝试使用Windows复制时,网站上的示例可能会产生误导.

所以我的问题是:

为了 Windows上的ImageMagick网站复制示例,我需要遵循哪些确切的步骤?

command-line curve gnuplot imagemagick notepad++

5
推荐指数
1
解决办法
789
查看次数

使用ImageMagick将具有嵌入式字体的SVG转换为JPEG

我想在Web服务器上将带有嵌入字体和图像的SVG渲染为JPEG。我尝试了ImageMagick,但是未使用嵌入字体。SVG的字体会发生变化,因此我需要一种不单独安装这些字体的方法。

如何使ImageMagick使用嵌入字体?

svg render imagemagick

5
推荐指数
0
解决办法
634
查看次数

使用ImageMagick删除收据图像边框

在使用tesseract-OCR引擎提取文本之前,我正在使用ImageMagick服务预处理收据图像.我需要删除收据的背景.我已经通过掩蔽来移除这里的边界.但是我无法为收据创建掩码.

但是,我试图从收据图像中删除阴影.

初始图像(示例收据)

在此输入图像描述

convert input.png -colorspace gray \
      \( +clone -blur 0x2 \) +swap -compose divide -composite \
      -linear-stretch 5%x0%   photocopy.png
Run Code Online (Sandbox Code Playgroud)

应用代码后:

在此输入图像描述

我已经尝试了下面的代码来制作除了白色到黑色的所有颜色,但这似乎并没有完全消除photocopy.png的背景.

convert receipt.jpg -fill black -fuzz 20% +opaque "#ffffff" black_border.jpg
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

有没有办法删除收据图像的边框?或者从图像中创建任何类型的蒙版?注意:我需要删除具有不同背景的多个图像的噪点和边框.

ruby ocr tesseract imagemagick image-masking

5
推荐指数
1
解决办法
891
查看次数

是否可以使用“ pandoc”将.tex文件编译为PDF?

可以使用pandoc编译.tex文件吗?

我目前正在使用MacVim在MultiMarkdown中记下课堂笔记。这样,当我回到家时,我可以mmd2tex使用TexShop将.tex文件编译为PDF。效果很好,但是该过程实际上很耗时。

我想知道是否可以通过pandoc命令行使用几乎相同的方法来实现。我试图将原始的.txt文件直接转换为PDF,pandoc但遇到各种错误...

有人对此有解决方案吗?还是建议其他工作流程来做笔记?

pdf macos tex pandoc

5
推荐指数
1
解决办法
1675
查看次数

对PDF文件的每一页进行截图

如何从PDF 文件的每一页制作屏幕截图并将结果保存为 PHP 中的图像?是否可以?

php pdf ghostscript

5
推荐指数
1
解决办法
2470
查看次数

修改现有PDF以添加"NNN页面N"页脚

如何pdftk从命令行(或最好从Ruby)使用页面编号添加到预先存在的PDF的底部?

我正在寻找这种格式:

  • 第1页,共2页

  • 第2页,共2页

printing pdf postscript ghostscript pdftk

5
推荐指数
1
解决办法
1382
查看次数

CUPS打印PDF文件

如何判断lpr命令(CUPS)我的文件实际上是PDF?

lpr file.pdf

不会打印任何东西.

cups

4
推荐指数
1
解决办法
1万
查看次数

Pandoc 转换为 PDF 不提供彩色超文本链接

考虑以下pandoc通过latex.

你能识别那里的超文本链接吗?我也不是......事实证明,第二个 Kaplan Meier具有指向外部站点的功能齐全的链接。但是我们如何推测呢?

请注意,pandoc 序言中已经存在以下选项- 没有它,超链接将根本无法工作:

link-citations: true
Run Code Online (Sandbox Code Playgroud)

缺少一个“真正的”解决方案,我需要修改一些东西来为链接提供提示——可能是通过字体操作。

pandoc pandoc-citeproc

4
推荐指数
2
解决办法
737
查看次数