语言检测

Ped*_*dro 5 c++ ocr nlp language-detection

我正在使用tesseract进行OCR,主要是发票.但是,tesseract需要在开始处理文件之前指定语言.

我以为我要根据预定义的默认语言执行ocr.然后,我想使用生成的文本来检查使用的语言.如果它不是默认语言,我会再次处理它,以便从tesseract获得更好的结果.

但是如何实现语言检测算法呢?我可以使用C++库吗?

ngu*_*enq 3

本文“ OCR 应用程序的自然语言识别”描述了与您的要求类似的识别任务所涉及的技术。