hay*_*ayd 48 ebooks pdf convert djvu
我想将 DJVU 文档转换为 PDF 文档,分离和保留文本层和图像,同时保留DJVU的结构。我怎样才能在 Ubuntu 中做到这一点?
(然后我将使用Calibre转换为 ePub/Mobi,所以如果整个过程有一个 Calibre 插件,那对我来说将是完美的!)
注1:从打印了Evince,使用包从DJview,或任何出口ddjvu,是不是因为他们丢弃文字图层适当的解决办法,只能保存图像。
注2:使用DJVULibre好像只提取文本层,不提取图片。同样,“手动”复制文本会丢失文档结构和图片。
Ash*_*shu 45
只需使用 DJView 并导出为 PDF
在evince中打开djvu文件
选择打印---->打印到文件
将.ps改为.pdf,点击打印
安装
djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
转到终端并写入
sudo apt-get install libtiff-tools
Run Code Online (Sandbox Code Playgroud)转到 djvu 文件所在的目录。单击鼠标右键。转到“在终端中打开”选项。点击它。将打开一个终端。
在那个终端写
ddjvu -format=tiff file_name.djvu file_name.tiff
tiff2pdf -j -o file_name.pdf file_name.tiff
Run Code Online (Sandbox Code Playgroud)还有一个在线转换器DjVu 到 PDF 转换器
zet*_*tah 20
这是一种方法,它需要一些不太常用的工具:
我们可以使用djvu2hocr
命令(来自ocrodjvu
包)从 DjVu 文件中提取隐藏的文本层(它不做任何 OCR 或类似操作,它只是提取带有几何图形的文本层),即:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
干预更正输出 hOCR 中的类名(这只是简单的 HTML 文件)
现在我们将 DjVu 页面提取为 TIFF 格式:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
以便我们在工作文件夹中以这些文件结尾:
sample.djvu
pg10.html
pg10.tif
Run Code Online (Sandbox Code Playgroud)
这就是pdfbeads
发挥作用的地方,我们简单地执行:
pdfbeads -o pg10.pdf
然后这个漂亮的程序会处理此文件夹中的所有内容(具有相同基本名称的 HTML 和 TIFF 文件)并生成带有一些副产品的输出 PDF 文件:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
Run Code Online (Sandbox Code Playgroud)
与输入 DjVu 文件相同,内部有文本层:
评论总结:
下面冗长的评论讨论了将 DjVu 文档页面中的较小图像表示为单独对象,这并不容易,因为 DjVu 文档页面本身只是带有可选文本层的单个图像,没有关于较小图像作为单独对象的“信息”。如果 DjVu 文档有彩色图像,那么它们通常会放在背景层;在这种情况下,用户可以利用ddjvu
(仅提取背景层)和imagemagick
(自动裁剪)等工具仅输出图像而不是整个画布,但不能自动创建 PDF 输出
另一种更明智但速度较慢的方法是使用常规的 OCR GUI 工具。gscan2pdf
(> 1.0) 建议作为 Linux PC 的可能候选
有djvu2pdf但它依赖于 ghostscript 所以它可能是另一种打印选项。我仍然建议你看一看,以防万一它比我认为的更聪明。
它不在 repos 中,但您可以从制造商的站点下载 deb:http: //0x2a.at/s/projects/djvu2pdf
** 在此处插入有关从存储库外部下载/安装内容的强制性通知 **