将 DJVU 转换为 PDF

Question

将 DJVU 转换为 PDF

hay*_*ayd 48 ebooks pdf convert djvu

我想将 DJVU 文档转换为 PDF 文档，分离和保留文本层和图像，同时保留DJVU的结构。我怎样才能在 Ubuntu 中做到这一点？

（然后我将使用Calibre转换为 ePub/Mobi，所以如果整个过程有一个 Calibre 插件，那对我来说将是完美的！）

注1：从打印了Evince，使用包从DJview，或任何出口ddjvu，是不是因为他们丢弃文字图层适当的解决办法，只能保存图像。

注2：使用DJVULibre好像只提取文本层，不提取图片。同样，“手动”复制文本会丢失文档结构和图片。

Answer 1

Ash*_*shu 45

方法一

只需使用 DJView 并导出为 PDF

转到 Synaptic 包管理器
安装 DJview4
运行 DJview（应用程序 - 图形 - DJView4）
打开您的 .djvu 文档
：菜单 - 导出为：PDF

方法二

在evince中打开djvu文件
选择打印---->打印到文件
将.ps改为.pdf，点击打印

方法三

转到 Synaptic 包管理器
安装

djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
转到终端并写入
```
 sudo apt-get install libtiff-tools
```
Run Code Online (Sandbox Code Playgroud)
转到 djvu 文件所在的目录。单击鼠标右键。转到“在终端中打开”选项。点击它。将打开一个终端。

在那个终端写

ddjvu -format=tiff file_name.djvu file_name.tiff
tiff2pdf -j -o file_name.pdf file_name.tiff

Run Code Online (Sandbox Code Playgroud)

方法四

还有一个在线转换器DjVu 到 PDF 转换器

它不会（检索图像或文本）。 (2认同)
关于“方法 2”：将扩展名从 .ps 更改为 .pdf 不会改变任何内容，Evince 仍然生成相同的 Postscript 文件（在 Ubuntu 17.10 上测试）。 (2认同)
方法 1 会丢失文本层（我想其他方法也是如此）。 (2认同)

Answer 2

zet*_*tah 20

这是一种方法，它需要一些不太常用的工具：

奥克罗杰武
pdfbeads，它有自己的要求，可以通过谷歌找到

我们可以使用djvu2hocr命令（来自ocrodjvu包）从 DjVu 文件中提取隐藏的文本层（它不做任何 OCR 或类似操作，它只是提取带有几何图形的文本层），即：

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed 干预更正输出 hOCR 中的类名（这只是简单的 HTML 文件）

现在我们将 DjVu 页面提取为 TIFF 格式：

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

以便我们在工作文件夹中以这些文件结尾：

sample.djvu
pg10.html
pg10.tif

Run Code Online (Sandbox Code Playgroud)

这就是pdfbeads发挥作用的地方，我们简单地执行：

pdfbeads -o pg10.pdf

然后这个漂亮的程序会处理此文件夹中的所有内容（具有相同基本名称的 HTML 和 TIFF 文件）并生成带有一些副产品的输出 PDF 文件：

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

Run Code Online (Sandbox Code Playgroud)

与输入 DjVu 文件相同，内部有文本层：

在此处输入图片说明

评论总结：

下面冗长的评论讨论了将 DjVu 文档页面中的较小图像表示为单独对象，这并不容易，因为 DjVu 文档页面本身只是带有可选文本层的单个图像，没有关于较小图像作为单独对象的“信息”。如果 DjVu 文档有彩色图像，那么它们通常会放在背景层；在这种情况下，用户可以利用ddjvu（仅提取背景层）和imagemagick（自动裁剪）等工具仅输出图像而不是整个画布，但不能自动创建 PDF 输出

另一种更明智但速度较慢的方法是使用常规的 OCR GUI 工具。gscan2pdf(> 1.0) 建议作为 Linux PC 的可能候选

Answer 3

Oli*_*Oli 5

有djvu2pdf但它依赖于 ghostscript 所以它可能是另一种打印选项。我仍然建议你看一看，以防万一它比我认为的更聪明。

它不在 repos 中，但您可以从制造商的站点下载 deb：http: //0x2a.at/s/projects/djvu2pdf

** 在此处插入有关从存储库外部下载/安装内容的强制性通知 **

归档时间：	14 年，5 月前
查看次数：	47729 次
最近记录：	6 年，2 月前