我有一个多页的 djvu 文件。我想知道如何提取仅包含多个页面子集的新 djvu 文件?
例如,一个 djvu 文件有 10 页,我想提取一个由原始 djvu 文件的第 3-6 页组成的新 djvu 文件。可以用djvlibre的一些命令来完成吗,比如djvused, djvm, ...?我正在使用 Ubuntu Linux。
考虑两种不同的情况:从原始 djvu 文件中提取而不删除页面,以及提取而不删除。
谢谢!
如何转换 djvu2pdf ?
我目前的做法是:
djvups x.djvu > x.ps
ps2pdf x.ps
Run Code Online (Sandbox Code Playgroud)
是否有更有效和更好(在输出质量、数据/元数据丢失方面)的方法来处理?
我有一个 PDF 文件(受版权保护,所以我不能在这里包含它)。我正在尝试将其转换为 DjVu,使用一些在线网站以及pdf2djvu
,但它们都失败了。在 的情况下pdf2djvu
,错误是:
PDF 错误:FoFiType1::parse 一行超过 255 个字符,我们不支持这个
有没有办法解决?如何处理 PDF 到 DjVu 的转换问题?
假设一个 pdf 文件有 OCR 文本。我们如何将其转换为 djvu 文件并将 OCR 文本传递给 djvu 文件?
相反,如果在上面交换“pdf”和“djvu”?
谢谢!
对于 djvu 文件,我喜欢在 djview 中阅读,因为当我搜索某些单词时,它可以一目了然地显示所有结果的位置,并同时突出显示它们。这比 evince 中的 pdf 文件搜索功能要方便得多。
对于 pdf 文件,我喜欢使用 Xournal 对其进行注释,例如,在某些行下划线,添加文本注释。
但是对于单个文件(pdf 或 djvu),我必须创建两个文件(一个在 pdf 中,另一个在 djvu 中)并在 djview 和 xournal(也可能在 evince)中打开它们,以实现两个好处我在上面概述了。
我还没有尝试过 djview、xournal 和 evince 的许多其他功能,也没有尝试过很多应用程序。您是否有一些方便的方法来实现我希望做的事情,可能还有更多我尚未提到的方法?
我的操作系统是 Ubuntu 12.04。
从 CLI 查找 PDF 文档的页数非常简单:
pdfinfo file.pdf | grep ^Pages:
Run Code Online (Sandbox Code Playgroud)
如何使用 djvu 文件执行相同的操作?请不要将其转换为 pdf,然后在检查页数后删除 pdf 文件。
如果我djvu
从tiff
文件中创建一个新文件,我可以使用djvubind
它使djvu
文件可以使用例如tesseract-ocr
.
但是假设我已经给出了djvu
文件。我怎样才能使它可搜索?
对于 pdf,我知道pdfsandwich
djvu 有类似的东西吗?
这已经困扰我一段时间了。
根据我的经验,.djvu 文件通常是可搜索的。所以在那里的某个地方,所有的文本都只是一个大字符串,对吗?但是没有 djvu2text 程序。我发现尝试在 djvu 阅读器中选择文本有点像噩梦。