我有一个相当大(~100MB)的 PDF 文档,里面有很多图片(作为插图和背景图片),我想要一份没有图片的 pdf 文件,但我不知道如何去做。
我不是在谈论仅将其转换为文本,我想保持段落/表格/多列原样。
我对命令行很满意,并且有几台可以使用不同发行版的计算机。
最近我碰到avahi-daemon和mdns....
我的系统中是否需要mDNS 客户端来连接 mDNS 服务器?
或者有没有其他方法可以将没有 mDNS 客户端的计算机连接到 mDNS 服务器计算机(主机名.本地)?
是否可以在没有运行mDNS服务的情况下从计算机 ping 通。
我有数千份文件,其中一些已被扫描。所以我需要一个脚本来测试属于一个目录的所有 PDF 文件。有没有一种简单的方法可以做到这一点?
它们非常不同,但是由于与扫描相关的不稳定的 OCR 过程,如下所述的扫描的可以找到一些文本。
Sudodus 在下面的评论中提出的建议似乎很有趣。查看扫描到未扫描的 PDF 之间的区别:
扫描:
grep --color -a 'Image' AR-G1002.pdf
<</BitsPerComponent 8/ColorSpace/DeviceRGB/Filter[/DCTDecode]/Height 2197/Length 340615/Name/Obj13/Subtype/Image/Type/XObject/Width 1698>>stream
<</BitsPerComponent 1/ColorSpace/DeviceGray/DecodeParms<</Columns 1698/K -1>>/Filter/CCITTFaxDecode/Height 2197/Length 40452/Name/Obj18/Subtype/Image/Type/XObject/Width 1698>>stream
<</BitsPerComponent 1/ColorSpace/DeviceGray/DecodeParms<</Columns 1698/K -1>>/Filter/CCITTFaxDecode/Height 2197/Length 41680/Name/Obj23/Subtype/Image/Type/XObject/Width 1698>>stream
<</BitsPerComponent 1/ColorSpace/DeviceGray/DecodeParms<</Columns 1698/K -1>>/Filter/CCITTFaxDecode/Height 2197/Length 41432/Name/Obj28/Subtype/Image/Type/XObject/Width 1698>>stream
<</BitsPerComponent 1/ColorSpace/DeviceGray/DecodeParms<</Columns 1698/K -1>>/Filter/CCITTFaxDecode/Height 2197/Length 59084/Name/Obj33/Subtype/Image/Type/XObject/Width 1698>>stream
<</BitsPerComponent 8/ColorSpace/DeviceRGB/Filter[/DCTDecode]/Height 2197/Length 472681/Name/Obj38/Subtype/Image/Type/XObject/Width 1698>>stream
<</BitsPerComponent 8/ColorSpace/DeviceRGB/Filter[/DCTDecode]/Height 2197/Length 469340/Name/Obj43/Subtype/Image/Type/XObject/Width 1698>>stream
<</BitsPerComponent 8/ColorSpace/DeviceRGB/Filter[/DCTDecode]/Height 2197/Length 371863/Name/Obj48/Subtype/Image/Type/XObject/Width 1698>>stream
<</BitsPerComponent 8/ColorSpace/DeviceRGB/Filter[/DCTDecode]/Height 2197/Length 344092/Name/Obj53/Subtype/Image/Type/XObject/Width 1698>>stream
<</BitsPerComponent 1/ColorSpace/DeviceGray/DecodeParms<</Columns 1698/K -1>>/Filter/CCITTFaxDecode/Height 2197/Length …Run Code Online (Sandbox Code Playgroud) 我想使用 Pandoc 将我的 test.epub 转换为 PDF 格式。我试过(这里给出)
pandoc -f epub -t test.epub -o outfile.pdf
Run Code Online (Sandbox Code Playgroud)
这会引发以下错误:
无法从 pdf 生成 pdf 输出
我也尝试了以下命令
pandoc test.epub -f epub -t latex -s -o my.pdf --latex-engine=xelatex
Run Code Online (Sandbox Code Playgroud)
这会引发以下错误:
--latex-engine has been removed. Use --pdf-engine instead.
Try pandoc --help for more information.
Run Code Online (Sandbox Code Playgroud)
然后我试过了
pandoc test.epub -f epub -t latex -s -o my.pdf --pdf-engine=xelatex
Run Code Online (Sandbox Code Playgroud)
它将 EPUB 转换为 PDF 格式,但最终输出不是很好。不尊重分页符和其他东西。页数多于实际。非常有效地将 EPUB 转换为 PDF 格式的任何想法。
我想从 333 PDF 页文件转换单页。
我尝试过使用此命令:convert Binder3.pdf[12] image.jpg,但由于某种原因我收到此错误:
zsh:未找到匹配项:Binder3.pdf[12]
文件名是正确的。我仔细检查了一下。为什么它不起作用?我正在使用ImageMagick 6.9.10-8 Q16 x86_64 20180723
pdf ×4
command-line ×2
convert ×2
avahi ×1
epub ×1
imagemagick ×1
latex ×1
mdns ×1
pandoc ×1
zsh ×1