Yas*_*sey 5 windows pdf open-source tesseract-ocr
就像许多提供免费/开源版本并销售“商业”版本的软件公司一样,他们使实际下载和使用免费版本变得尽可能神秘和不友好。这是一个典型的例子: https: //mupdf.com/downloads/
有两个适用于 Windows 的不同文件可供下载:
mupdf-1.18.0-windows.zip
mupdf-1.18.0-windows-tesseract.zip
Run Code Online (Sandbox Code Playgroud)
什么是“-tesseract”?不知道。我浏览了该页面、其他页面、在线搜索等等。没有任何线索。没有一个词解释其中的区别或“超正方体”的含义。维基百科的消歧页面也没有暗示它可能指的是什么。
什么是“超立方体”?更重要的是:它与 PDF 查看有什么关系?为什么它是一个单独的文件?
tesseract是一个开源 OCR 程序,可以自由集成到其他程序中。
api:可选使用 Tesseract 使用 OCR 提取文本。
因此,由于它是一个电子书阅读器,并且可能其中一些电子书可能是基于图像的 PDF,只是简单的图像,因此需要 OCR 阅读器来提取文本。在这种情况下它使用tesseract.
否则tesseract,文本提取可能无法在基于图像的书籍上工作,并且您将只能从正确的纯文本电子书中获取文本。
如果您知道您永远不需要从图像中提取文本,那么您可以通过不下载版本来节省下载时间并减少程序占用空间-tesseract。如果您需要OCR,那么您需要下载该-tesseract版本。
| 归档时间: |
|
| 查看次数: |
1188 次 |
| 最近记录: |