我正在尝试为 Tesseract 4.0 创建训练数据来识别屏幕截图中的图标(例如,评论,分享,保存)。这是一个示例屏幕截图:

我想微调 Tesseract 以实现如下输出:
Like 147
Comment 29
Saved 5
Actions
58
Actions
Profile Visits 24
Follows 2
我已按照https://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/中所述逐步进行操作
我修改了盒子文件如下:
- 心:喜欢
- 语音气泡:评论
- 书签:已保存
- 箭头:分享
但是,最终的训练数据未能按照我想要的方式读取图标。我遇到的错误示例是“Like is not in unicharset”。在为图标创建 unicharset 时我需要做一些不同的事情吗?