在Tesseract中为自定义字体创建新的eng.tessdata文件,给出错误

mjo*_*osh 6 windows ocr tesseract batch-file command-line-interface

将PDF文件转换.tiff为非常简单的文件

convert -depth 4 -density 300 -background white +matte eng.arial.pdf eng.arial.tiff

Run Code Online (Sandbox Code Playgroud)

然后训练tesseract的.tiff文件 -

tesseract eng.arial.tiff eng.arial batch.nochop makebox

Run Code Online (Sandbox Code Playgroud)

然后将.tiff文件输入tesseract -

tesseract eng.arial.tiff eng.arial.box nobatch box.train .stderr

Run Code Online (Sandbox Code Playgroud)

检测使用的字符集 -

unicharset_extractor *.box

Run Code Online (Sandbox Code Playgroud)

但是我收到了这个错误 -

unicharset_extractor:./.libs/lt-unicharset_extractor.c:233: FATAL: couldn't find unicharset_extractor.

Run Code Online (Sandbox Code Playgroud)

而且它也发生了mftraining和combine_tessdata为好.

UPDATE

在单个文件夹文件中运行unicharset_extractor仍然无法正常工作.

它不仅有这个命令,还有和mftraining,cntraining和combine_tessdata.

归档时间：	10 年前
查看次数：	731 次
最近记录：	10 年前

如何覆盖批量变量字符数限制？ 5

更多相关链接

在适用于Linux的Windows子系统上安装Oracle JDK 75

如何在CLI上使用gpg提示密码短语 27

在Windows批处理中回显UTF-8字符 22

从C#打开程序 - 同时指定工作目录 13

在Windows上使用PHP获取总可用系统内存 10

Gettext将始终使用系统默认语言环境 10

使用New-Item创建目录的竞争条件？ 7

如何使用批处理脚本ping多个服务器并返回IP地址和主机名？ 6

Windows .BAT将所有匹配掩码的目录从目录A移动到目录B. 3

使用批处理文件在 VSCode 中打开项目 3

你如何创建一个远程Git分支？ 3030

在git中推送提交时,src refspec master与any不匹配 2472

静态类和单例模式之间的区别？ 1708

从C#中的枚举中获取int值 1698

使当前的Git分支成为主分支 1555

如何在不注销并重新登录的情况下重新加载.bashrc？ 1510

你什么时候使用git rebase而不是git merge？ 1461

MVC和MVVM有什么区别？ 1275

如何在JavaScript中合并两个数组并重复删除项目 1256

简单的面试问题变得更难:给出数字1..100,找到丢失的数字 1115