有没有办法将 PDF 文档转换为 epub、azw 或 mobi 等电子书格式?我正在寻找转换速度很快的应用程序。我刚刚试过口径。10 分钟后,甚至没有达到 2% 的转化率。所以请不要口径。CLI 是首选。
您应该尝试pdftotext
(在包中的 Ubuntu 下poppler-utils
)。它是一个命令行转换器。它假定 PDF 包含文本并且不只包含图像。
如果 PDF 文件包含图像(没有 OCR 信息),则必须使用 OCR 解决方案,这要慢得多。
我已经成功地将 OCR 方法用于已加扰的 PDF 文本(通过以非线性方式在页面上定位单个字符)。然后你使用 egpdftoppm
来获取页面的单个图像和 OCR 那些图像。