小编Kur*_*fle的帖子

如何让Ghostscript在PDF中使用嵌入字体

gs -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dBATCH \
   -sDEVICE=pdfwrite -sOutputFile=output.pdf input.pdf
Run Code Online (Sandbox Code Playgroud)

我正在使用(尝试无论如何)使用Ghostscript来减少我的PDF文件大小.上面的命令看起来像它的工作,它大大减少了文件大小,但随后几个字段出现乱码.至于我可以追踪它,它正在进行字体替换.IE,同一文本=相同的乱码文本.

当它到达我时,字体嵌入在PDF中.另外,我试图将所有字体添加到Fontmap中.

任何想法,理想情况下我希望它使用嵌入式字体,而不必更新gs系统字体/编辑字体图等.我正在使用Ubuntu 9.10和嵌入的字体是Windows字体,Arial/TimesNewRoman.

谢谢.

pdf ubuntu fonts postscript ghostscript

8
推荐指数
1
解决办法
2万
查看次数

运行ImageMagick将低质量pdf转换为图像的最佳参数是什么(对于OCR)

我有几个低质量的pdf.我想使用OCR - 更精确的Ocropus 从中获取文本.要使用,我首先使用ImageMagick - 一个命令行工具将pdf转换为图像 - 将这些pdf转换为jpg或png.

然而,ImageMagick会产生非常低质量的图像,而Ocropus几乎无法识别任何内容.我想了解处理低质量pdf的最佳参数是什么,以便为OCR提供尽可能高质量的图像.

我找到了这个页面,但我不知道从哪里开始.

linux pdf imagemagick image-processing ghostscript

8
推荐指数
2
解决办法
6111
查看次数

如何识别PDF格式?

给定一个字节流,如何判断此流是否包含PDF文档或其他内容?

我使用的是.NET和C#,但这并不重要.

.net c# pdf

8
推荐指数
1
解决办法
1906
查看次数

如何将多个PDF页面拼接成一个类似画布的大PDF?

我的家谱有32页PDF.它不是将家谱全部放在一个非常大的PDF页面上(这就是我想要的),而是将其格式化为一组8个单独的美国字母大小的页面应该在宽度上拼接; 这4行完成了树.每页的边距都是22px.

如果以表格形式显示它(数字代表PDF页码):

表

我试图掀起一些Python代码来做到这一点,但还没有走得太远.如何拼接PDF以便它可以是一个大页面而不是较小的单个页面?

谢谢您的帮助.

编辑:这是我写的代码.很抱歉没有发布它.

from pyPdf import PdfFileWriter, PdfFileReader

STITCHWIDTH = 8;
currentpage = 1;

output = PdfFileWriter()
input1 = PdfFileReader(file("familytree.pdf", "rb"))

for(i=0; i<=4; i++)
    output.addPage(input1.getPage(currentpage))
    currentpage++;
    #do something to add other pages to width

print "finished with stitching"

outputStream = file("familytree-stitched.pdf", "wb")
output.write(outputStream)
outputStream.close()
Run Code Online (Sandbox Code Playgroud)

python pdf pdflatex

8
推荐指数
1
解决办法
1729
查看次数

PDF中的%% EOF是否必须出现在文件的最后1024个字节内?

根据QPDF来源,我正在阅读它有关于pdfs的引用:

// PDF spec says %%EOF must be found within the last 1024 bytes of
// the file.  We add an extra 30 characters to leave room for the
// startxref stuff.
Run Code Online (Sandbox Code Playgroud)

但是,我在PDF 1.7规范中找不到任何相关信息.我发现互联网上有几个地方也提到过这个.

我的问题是:这是真的,如果是这样的话,这个指定的位置%%EOF将在最后的1024个字节中?

pdf

8
推荐指数
2
解决办法
9327
查看次数

将ImageMagick中的多个图像与相对(非绝对)偏移组合在一起

我正在寻找在ImageMagick中将多个图像拼接在一起的最有效方法,在背景图像上,使得叠加图像之间的间距/填充是一致的?

我已经研究过使用+ append,convert -composite和转换-page和-layers合并.

以下命令(convert -composite)有效,但需要预先计算图像尺寸才能指定绝对偏移.真的,我希望FIRST分层图像的末端和第二层图像的开始之间有10像素的间隙,但我能看到的唯一方法是通过指定画布左上角的绝对偏移量.

convert \
  background.jpg \
  first.jpg -gravity Northwest -geometry  +10+10 -composite \
  second.jpg                   -geometry +300+10 -composite \
  third.jpg                    -geometry +590+10 -composite \
  output.jpg
Run Code Online (Sandbox Code Playgroud)

我正在寻找某种类型的运算符,以便可以相对于分层中的"最后"图像解释水平偏移,因此我可以以某种方式指定偏移,而不是指定+300+10第二个图像和+590+10第三个图像+10+10.

我认为引力可以让我实现那个(-gravity Northwest),就像float: left;在CSS定位中一样,但事实并非如此.

我在以下方面也取得了一些成功:

convert \
  -page  +10+10 first.jpg  \
  -page +300+10 second.jpg \
  -page +590+10 third.jpg  \
  -background transparent  \
  -layers merge \
   layered.png

convert background.jpg layered.png -gravity Center -composite output.jpg
Run Code Online (Sandbox Code Playgroud)

所描述的两种技术都需要预先计算绝对偏移,这有点痛苦.有一个更好的方法吗?

imagemagick imagemagick-convert

8
推荐指数
1
解决办法
1万
查看次数

如何使用ImageMagick查找图像的平均颜色?

如何获取图像平均颜色的RGB值,其中每个值为0-255?如"255,255,255"

我运行此命令缩小图像并返回带有alpha通道的'rgba'值,有时它会给出文本颜色名称:

convert cat.png -resize 1x1\! -format "%[pixel:u]\n" info:
Run Code Online (Sandbox Code Playgroud)

输出:

rgba(155,51,127,0.266087)
Run Code Online (Sandbox Code Playgroud)

imagemagick

8
推荐指数
2
解决办法
5990
查看次数

什么是PDF抚摸,非抚摸和填充?

我刚刚开始使用Apache PDFBox,我完全不知道在应用于文本和行时,抚摸,非抚摸和填充是什么意思.

请有人指点我参考/指南,解释这些术语的含义(对于初学者)以及它们之间的区别.

pdf pdfbox

8
推荐指数
1
解决办法
3808
查看次数

ImageMagick:调整图像大小(矩形到正方形); 保持主要对象的宽高比

我有肖像和风景JPEG图像.

我想制作带有白色背景的方形缩略图.我需要保持所有图像的纵横比,并将较大的边框缩小到200px.

我想使用ImageMagick(CLI),但我不知道该怎么做.任何的想法 ?

缩略图生成

这是个人图片:

图片1 图2

image imagemagick thumbnails command-line-interface

8
推荐指数
1
解决办法
2556
查看次数

使用ImageMagick和'textcleaner'清理OCR图像

我有以下图像,我想准备一个带有tesseract的OCR: 在此输入图像描述

目标是清理图像并消除所有噪音.我正在使用textcleaner带有以下参数的ImageMagick脚本:

./textcleaner -g -e normalize -f 30 -o 12 -s 2 original.jpg output.jpg
Run Code Online (Sandbox Code Playgroud)

输出仍然不那么干净: 在此输入图像描述

我为参数尝试了各种变化,但没有运气.有没有人有想法?

ocr tesseract imagemagick imagemagick-convert

8
推荐指数
1
解决办法
1万
查看次数