我正在尝试通过Ubuntu上的命令行将.xls文件转换为.pdf使用LibreOffice.我有一个关于.xls文件的报告,在单元格的背景中有一些颜色等.
问题是当我转换.xls文件时,.pdf丢失了原始格式.每个页面几乎在一半中断,一页的内容显示在两个不同的页面中.
.xls文件转换为.pdf命令行?.pdf页面的大小不打破页面?(也可以通过命令行)我用来进行转换的代码是:
soffice --headless --convert-to pdf:"impress_pdf_Export" filename.xls
Run Code Online (Sandbox Code Playgroud) 我的(网络)应用程序的设置如下:我得到用户上传的PDF文件,在它们上运行OCR并向他们显示OCRed PDF。由于所有内容都在线,因此最小化生成的PDF文件的大小是减少用户加载和等待时间的关键。
我从用户那里收到的文件是sample.pdf(我创建了一个包含原始文件以及在此处生成的文件的存档:https : //dl.dropboxusercontent.com/u/1390155/tess-files/sample .zip)。我使用tesseract 3.04并执行以下操作:
gs -r300 -sDEVICE=tiff24nc -dBATCH -dNOPAUSE -sOutputFile=sample.tiff sample.pdf
tesseract sample.tiff sample-tess -l fra -psm 1 pdf
Run Code Online (Sandbox Code Playgroud)
OCR的结果很好,但是现在生成的PDF的大小约为2.5倍
所以我问你,如何在保持OCR结果的同时减小生成的PDF的大小?
一种明显的解决方案是在生成tiff时降低分辨率,但是我不想这样做,因为它可能会影响OCR结果。
我尝试的第二件事是使用ghostscript减少了tesseract后的PDF大小:
gs -o sample-down-300.pdf -sDEVICE=pdfwrite -dDownsampleColorImages=true \
-dDownsampleGrayImages=true -dDownsampleMonoImages=true \
-dColorImageResolution=300 -dGrayImageResolution=300 \
-dMonoImageResolution=300 -dColorImageDownsampleThreshold=1.0 \
-dGrayImageDownsampleThreshold=1.5 -dMonoImageDownsampleThreshold=1.0 \
sample-tess.pdf
Run Code Online (Sandbox Code Playgroud)
这会有所帮助,生成的文件只有101K,因此约为原始文件的1.5倍。我可以接受,但它似乎也会影响OCR结果。例如,现在缺少“餐厅”和“比萨店”(第二行)之间的空白。
带有ghostscript的另一个(更简单)选项(使用ebook参数)导致PDF文件中的质量较差的43k文件,并且存在缺少空白的相同问题:
gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook \
-dNOPAUSE -dBATCH -dQUIET -sOutputFile=sample-ebook.pdf \
sample-tess.pdf
Run Code Online (Sandbox Code Playgroud)
较低质量的PDF很好,但是我还是不想在OCR上妥协。
我已经使用PNG和JPEG完成了其他测试,但是OCR结果总是下降(甚至略有下降),并且结果PDF不会更小。例如,使用PNG:
convert -density 300 sample.pdf -transparent white sample.png
tesseract sample.png sample-tess-png -l fra -psm 1 pdf
Run Code Online (Sandbox Code Playgroud)
总数(55.50)丢失,最终PDF大小为149k。 …
到目前为止,我在Windows平台上的ImageMagick网站上复制了生成的曲线公式示例有很多问题.
我终于解决了,并希望与您分享.
ImageMagick网站上的FX公式需要在ImageMagick中为Photoshop指定特定通道的自定义曲线调整.但是,当您尝试使用Windows复制时,网站上的示例可能会产生误导.
所以我的问题是:
为了从 Windows上的ImageMagick网站复制示例,我需要遵循哪些确切的步骤?
我想在Web服务器上将带有嵌入字体和图像的SVG渲染为JPEG。我尝试了ImageMagick,但是未使用嵌入字体。SVG的字体会发生变化,因此我需要一种不单独安装这些字体的方法。
如何使ImageMagick使用嵌入字体?
在使用tesseract-OCR引擎提取文本之前,我正在使用ImageMagick服务预处理收据图像.我需要删除收据的背景.我已经通过掩蔽来移除这里的边界.但是我无法为收据创建掩码.
但是,我试图从收据图像中删除阴影.
初始图像(示例收据)

convert input.png -colorspace gray \
\( +clone -blur 0x2 \) +swap -compose divide -composite \
-linear-stretch 5%x0% photocopy.png
Run Code Online (Sandbox Code Playgroud)
应用代码后:

我已经尝试了下面的代码来制作除了白色到黑色的所有颜色,但这似乎并没有完全消除photocopy.png的背景.
convert receipt.jpg -fill black -fuzz 20% +opaque "#ffffff" black_border.jpg
Run Code Online (Sandbox Code Playgroud)

有没有办法删除收据图像的边框?或者从图像中创建任何类型的蒙版?注意:我需要删除具有不同背景的多个图像的噪点和边框.
可以使用pandoc编译.tex文件吗?
我目前正在使用MacVim在MultiMarkdown中记下课堂笔记。这样,当我回到家时,我可以mmd2tex使用TexShop将.tex文件编译为PDF。效果很好,但是该过程实际上很耗时。
我想知道是否可以通过pandoc命令行使用几乎相同的方法来实现。我试图将原始的.txt文件直接转换为PDF,pandoc但遇到各种错误...
有人对此有解决方案吗?还是建议其他工作流程来做笔记?
如何pdftk从命令行(或最好从Ruby)使用页面编号添加到预先存在的PDF的底部?
我正在寻找这种格式:
第1页,共2页
第2页,共2页
考虑以下pandoc通过latex.
你能识别那里的超文本链接吗?我也不是......事实证明,第二个 Kaplan Meier具有指向外部站点的功能齐全的链接。但是我们如何推测呢?
请注意,pandoc 序言中已经存在以下选项- 没有它,超链接将根本无法工作:
link-citations: true
Run Code Online (Sandbox Code Playgroud)
缺少一个“真正的”解决方案,我需要修改一些东西来为链接提供提示——可能是通过字体操作。
pdf ×5
ghostscript ×3
imagemagick ×3
ocr ×2
pandoc ×2
tesseract ×2
bash ×1
command-line ×1
cups ×1
curve ×1
excel ×1
gnuplot ×1
libreoffice ×1
macos ×1
notepad++ ×1
pdftk ×1
php ×1
postscript ×1
printing ×1
render ×1
ruby ×1
svg ×1
tex ×1
xls ×1