将 DJVU 转换为 PDF

hay*_*ayd 48 ebooks pdf convert djvu

我想将 DJVU 文档转换为 PDF 文档,分离和保留文本层图像,同时保留DJVU的结构。我怎样才能在 Ubuntu 中做到这一点?

(然后我将使用Calibre转换为 ePub/Mobi,所以如果整个过程有一个 Calibre 插件,那对我来说将是完美的!)

注1:从打印了Evince,使用包从DJview,或任何出口ddjvu,是不是因为他们丢弃文字图层适当的解决办法,只能保存图像。

注2:使用DJVULibre好像只提取文本层,不提取图片。同样,“手动”复制文本会丢失文档结构和图片。

Ash*_*shu 45

方法一

只需使用 DJView 并导出为 PDF

  1. 转到 Synaptic 包管理器
  2. 安装 DJview4
  3. 运行 DJview(应用程序 - 图形 - DJView4)
  4. 打开您的 .djvu 文档
  5. :菜单 - 导出为:PDF

方法二

在evince中打开djvu文件
选择打印---->打印到文件
将.ps改为.pdf,点击打印

方法三

  1. 转到 Synaptic 包管理器
  2. 安装

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. 转到终端并写入

     sudo apt-get install libtiff-tools
    
    Run Code Online (Sandbox Code Playgroud)
  4. 转到 djvu 文件所在的目录。单击鼠标右键。转到“在终端中打开”选项。点击它。将打开一个终端。

  5. 在那个终端写

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    
    Run Code Online (Sandbox Code Playgroud)

方法四

还有一个在线转换器DjVu 到 PDF 转换器

  • 它不会(检索图像或文本)。 (2认同)
  • 关于“方法 2”:将扩展名从 .ps 更改为 .pdf 不会改变任何内容,Evince 仍然生成相同的 Postscript 文件(在 Ubuntu 17.10 上测试)。 (2认同)
  • 方法 1 会丢失文本层(我想其他方法也是如此)。 (2认同)

zet*_*tah 20

这是一种方法,它需要一些不太常用的工具:

  1. 奥克罗杰武
  2. pdfbeads,它有自己的要求,可以通过谷歌找到

我们可以使用djvu2hocr命令(来自ocrodjvu包)从 DjVu 文件中提取隐藏的文本层(它不做任何 OCR 或类似操作,它只是提取带有几何图形的文本层),即:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed 干预更正输出 hOCR 中的类名(这只是简单的 HTML 文件)

现在我们将 DjVu 页面提取为 TIFF 格式:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

以便我们在工作文件夹中以这些文件结尾:

sample.djvu
pg10.html
pg10.tif
Run Code Online (Sandbox Code Playgroud)

这就是pdfbeads发挥作用的地方,我们简单地执行:

pdfbeads -o pg10.pdf

然后这个漂亮的程序会处理此文件夹中的所有内容(具有相同基本名称的 HTML 和 TIFF 文件)并生成带有一些副产品的输出 PDF 文件:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
Run Code Online (Sandbox Code Playgroud)

与输入 DjVu 文件相同,内部有文本层:

在此处输入图片说明

评论总结:

下面冗长的评论讨论了将 DjVu 文档页面中的较小图像表示为单独对象,这并不容易,因为 DjVu 文档页面本身只是带有可选文本层的单个图像,没有关于较小图像作为单独对象的“信息”。如果 DjVu 文档有彩色图像,那么它们通常会放在背景层;在这种情况下,用户可以利用ddjvu(仅提取背景层)和imagemagick(自动裁剪)等工具仅输出图像而不是整个画布,但不能自动创建 PDF 输出

另一种更明智但速度较慢的方法是使用常规的 OCR GUI 工具。gscan2pdf(> 1.0) 建议作为 Linux PC 的可能候选


Oli*_*Oli 5

djvu2pdf但它依赖于 ghostscript 所以它可能是另一种打印选项。我仍然建议你看一看,以防万一它比我认为的更聪明。

它不在 repos 中,但您可以从制造商的站点下载 deb:http: //0x2a.at/s/projects/djvu2pdf

** 在此处插入有关从存储库外部下载/安装内容的强制性通知 **