Tesseract box 文件中的数字是什么?

nkk*_*law 5 ocr tesseract image-processing

我无法找到任何有关 Tesseract 盒子文件如何工作以及坐标代表什么的文档。

例如,我得到:

T 2768 165 2789 191 0
Run Code Online (Sandbox Code Playgroud)

第一个标记显然是角色。我知道 Tesseract 使用左下角。2768因此应该是底部。第四个标记 ( 2789) 似乎位于顶部。我不明白第三个 ( 165)、第五个 ( 191) 和第六个 ( 0) 标记是什么。165191是不正确的左/右坐标,0我不知道它指的是什么。

谁能帮我?这些是像素坐标,还是我必须考虑图像的 DPI?

谢谢!

Mic*_*per 6

根据文档,每行的格式是

\n\n
<symbol> <left> <bottom> <right> <top> <page>\n
Run Code Online (Sandbox Code Playgroud)\n\n

在哪里:

\n\n
    \n
  • <symbol>是字符,例如 a 或 b。
  • \n
  • <left> <bottom> <right> <top>是适合页面上字符的矩形的坐标。请注意,Tesseract 使用的坐标系在图像的左下角有 (0,0)!
  • \n
  • <page>仅当您\xe2\x80\x99 使用多页 TIFF 文件时才相关。在所有其他情况下,只需在此处输入 0。
  • \n
\n\n

所以在你的具体情况下

\n\n
T 2768 165 2789 191 0\n
Run Code Online (Sandbox Code Playgroud)\n\n

将会

\n\n
    \n
  • 特点:T
  • \n
  • 左边:2768
  • \n
  • 底部:165
  • \n
  • 正确的:2789
  • \n
  • 顶部:191
  • \n
  • 页:0
  • \n
\n