dan*_*ske 2 ocr tesseract dpi tess4j image-preprocessing
我目前正在从事一个涉及使用 Tess4j Tesseract OCR 引擎的项目。在从事这个项目时,我遇到了很多网站,这些网站声称 Tesseract 在至少 300 DPI(每英寸点数)的图像上效果最好。
我的问题是为什么在图像中多次提到 DPI。我知道当您扫描一个对象时,您希望以至少 300 DPI 对其进行扫描。我只是不明白为什么这与用相机拍摄的照片有关。据我所知,DPI 是打印机的一个属性。基于此属性,它越高,图像越小,但质量越高。
现在,如果 DPI 与这些图像无关,那么我想知道为什么当我在 72 和 300 之间更改图像的 DPI 属性时,程序的结果会有所不同。是否有我不知道的 Tesseract 预处理?
实际上,它是特定 DPI 下的文本大小。
是否有最小文本大小?(它不会读取屏幕文本!)
为了合理的准确性,有一个最小文本大小。您必须考虑分辨率和点大小。精度在 10pt x 300dpi 以下下降,在 8pt x 300dpi 以下迅速下降。快速检查是计算字符 x 高度的像素。(X 高度是小写字母 x 的高度。)在 10pt x 300dpi 时,x 高度通常约为 20 像素,尽管这可能因字体而异。低于 10 像素的 x 高度,您获得准确结果的机会很小,低于约 8 像素,大部分文本将被“去除噪声”。
| 归档时间: |
|
| 查看次数: |
2554 次 |
| 最近记录: |