在android中导出tesseract OCR的HOCR输出

R4j*_*R4j 4 ocr android tesseract

我尝试使用tess-two,它是 Android 版 Tesseract Tools 的一个分支。我想打开hocrtesseract 中的输出,从这个链接,我尝试将变量设置tessedit_create_hocr为 true,但我在输出中看不到 hocr。这是我的尝试:

  baseApi.init(FileUtil.getAppFolder(), "eng", TessBaseAPI.OEM_TESSERACT_CUBE_COMBINED);
  baseApi.setVariable("tessedit_create_hocr", "1")
  baseApi.setImage(bitmap);
  String recognizedText = baseApi.getUTF8Text();
Run Code Online (Sandbox Code Playgroud)

有人告诉hocr输出应该位于配置文件夹或包含图像的文件夹中,但我没有看到任何内容。我不知道如何配置 hocr 输出的文件名和位置。

另一件事:有没有办法将配置文件应用到 Android 版 Tesseract Tools 中?我将配置文件放入tessdata/config 文件夹中,但没有任何反应。如何判断tesseract应该读取这些配置文件?看来他们没有足够的 Android 文档。

更新:感谢@nguyenq,现在我可以获取HOCR数据了。这是我的尝试:

  jstring Java_com_googlecode_tesseract_android_TessBaseAPI_nativeGetHOCRText(JNIEnv *env,
                                                                        jobject thiz,    jint page) {

 native_data_t *nat = get_native_data(env, thiz);

 char *text = nat->api.GetHOCRText(page);

 jstring result = env->NewStringUTF(text);

 free(text);

 return result;
 }
Run Code Online (Sandbox Code Playgroud)

ngu*_*enq 5

显然,tess-two没有实现所有,TessBaseAPI因为它不包括对本机GetHOCRText方法的支持。您可能必须自己扩展包装器才能访问您需要的功能。

配置文件用于命令行执行。或者,您可以通过公开的 API 方法设置必要的变量setVariable