gs -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dBATCH \
-sDEVICE=pdfwrite -sOutputFile=output.pdf input.pdf
Run Code Online (Sandbox Code Playgroud)
我正在使用(尝试无论如何)使用Ghostscript来减少我的PDF文件大小.上面的命令看起来像它的工作,它大大减少了文件大小,但随后几个字段出现乱码.至于我可以追踪它,它正在进行字体替换.IE,同一文本=相同的乱码文本.
当它到达我时,字体嵌入在PDF中.另外,我试图将所有字体添加到Fontmap中.
任何想法,理想情况下我希望它使用嵌入式字体,而不必更新gs系统字体/编辑字体图等.我正在使用Ubuntu 9.10和嵌入的字体是Windows字体,Arial/TimesNewRoman.
谢谢.
我有几个低质量的pdf.我想使用OCR - 更精确的Ocropus 从中获取文本.要使用,我首先使用ImageMagick - 一个命令行工具将pdf转换为图像 - 将这些pdf转换为jpg或png.
然而,ImageMagick会产生非常低质量的图像,而Ocropus几乎无法识别任何内容.我想了解处理低质量pdf的最佳参数是什么,以便为OCR提供尽可能高质量的图像.
我找到了这个页面,但我不知道从哪里开始.
我的家谱有32页PDF.它不是将家谱全部放在一个非常大的PDF页面上(这就是我想要的),而是将其格式化为一组8个单独的美国字母大小的页面应该在宽度上拼接; 这4行完成了树.每页的边距都是22px.
如果以表格形式显示它(数字代表PDF页码):

我试图掀起一些Python代码来做到这一点,但还没有走得太远.如何拼接PDF以便它可以是一个大页面而不是较小的单个页面?
谢谢您的帮助.
编辑:这是我写的代码.很抱歉没有发布它.
from pyPdf import PdfFileWriter, PdfFileReader
STITCHWIDTH = 8;
currentpage = 1;
output = PdfFileWriter()
input1 = PdfFileReader(file("familytree.pdf", "rb"))
for(i=0; i<=4; i++)
output.addPage(input1.getPage(currentpage))
currentpage++;
#do something to add other pages to width
print "finished with stitching"
outputStream = file("familytree-stitched.pdf", "wb")
output.write(outputStream)
outputStream.close()
Run Code Online (Sandbox Code Playgroud) 根据QPDF来源,我正在阅读它有关于pdfs的引用:
// PDF spec says %%EOF must be found within the last 1024 bytes of
// the file. We add an extra 30 characters to leave room for the
// startxref stuff.
Run Code Online (Sandbox Code Playgroud)
但是,我在PDF 1.7规范中找不到任何相关信息.我发现互联网上有几个地方也提到过这个.
我的问题是:这是真的,如果是这样的话,这个指定的位置%%EOF将在最后的1024个字节中?
我正在寻找在ImageMagick中将多个图像拼接在一起的最有效方法,在背景图像上,使得叠加图像之间的间距/填充是一致的?
我已经研究过使用+ append,convert -composite和转换-page和-layers合并.
以下命令(convert -composite)有效,但需要预先计算图像尺寸才能指定绝对偏移.真的,我希望FIRST分层图像的末端和第二层图像的开始之间有10像素的间隙,但我能看到的唯一方法是通过指定画布左上角的绝对偏移量.
convert \
background.jpg \
first.jpg -gravity Northwest -geometry +10+10 -composite \
second.jpg -geometry +300+10 -composite \
third.jpg -geometry +590+10 -composite \
output.jpg
Run Code Online (Sandbox Code Playgroud)
我正在寻找某种类型的运算符,以便可以相对于分层中的"最后"图像解释水平偏移,因此我可以以某种方式指定偏移,而不是指定+300+10第二个图像和+590+10第三个图像+10+10.
我认为引力可以让我实现那个(-gravity Northwest),就像float: left;在CSS定位中一样,但事实并非如此.
我在以下方面也取得了一些成功:
convert \
-page +10+10 first.jpg \
-page +300+10 second.jpg \
-page +590+10 third.jpg \
-background transparent \
-layers merge \
layered.png
convert background.jpg layered.png -gravity Center -composite output.jpg
Run Code Online (Sandbox Code Playgroud)
所描述的两种技术都需要预先计算绝对偏移,这有点痛苦.有一个更好的方法吗?
如何获取图像平均颜色的RGB值,其中每个值为0-255?如"255,255,255"
我运行此命令缩小图像并返回带有alpha通道的'rgba'值,有时它会给出文本颜色名称:
convert cat.png -resize 1x1\! -format "%[pixel:u]\n" info:
Run Code Online (Sandbox Code Playgroud)
输出:
rgba(155,51,127,0.266087)
Run Code Online (Sandbox Code Playgroud) 我刚刚开始使用Apache PDFBox,我完全不知道在应用于文本和行时,抚摸,非抚摸和填充是什么意思.
请有人指点我参考/指南,解释这些术语的含义(对于初学者)以及它们之间的区别.
我有肖像和风景JPEG图像.
我想制作带有白色背景的方形缩略图.我需要保持所有图像的纵横比,并将较大的边框缩小到200px.
我想使用ImageMagick(CLI),但我不知道该怎么做.任何的想法 ?

这是个人图片:

我有以下图像,我想准备一个带有tesseract的OCR:

目标是清理图像并消除所有噪音.我正在使用textcleaner带有以下参数的ImageMagick脚本:
./textcleaner -g -e normalize -f 30 -o 12 -s 2 original.jpg output.jpg
Run Code Online (Sandbox Code Playgroud)
输出仍然不那么干净:

我为参数尝试了各种变化,但没有运气.有没有人有想法?
pdf ×6
imagemagick ×5
ghostscript ×2
.net ×1
c# ×1
fonts ×1
image ×1
linux ×1
ocr ×1
pdfbox ×1
pdflatex ×1
postscript ×1
python ×1
tesseract ×1
thumbnails ×1
ubuntu ×1