我可以使用OCR来检测字体样式(粗体,斜体)吗？

Question

我可以使用OCR来检测字体样式(粗体,斜体)吗？

vam*_*min 11 ocr tesseract font-face

我有兴趣使用OCR从简单的文本中提取粗体和斜体字.例如,如果我输入带有文本的清晰图像,如下所示:

"快速的棕色狐狸跳在懒惰的狗."

我想得到一个像这样的输出:粗体("棕色","跳跃"),斜体("懒惰")

我已经考虑过使用OCRopus或Tesseract进行此操作,但文档很差,我无法判断它是否可行,或者如果它可以如何实现.

Answer 1

zku*_*nov 11

Tesseract 3.0.1中有来自trunk的功能.API中添加了一个新类 - ResultIterator它具有您感兴趣的以下功能:

 WordFontAttributes(bool* is_bold,
                    bool* is_italic,
                    bool* is_underlined,
                    bool* is_monospace,
                    bool* is_serif,
                    bool* is_smallcaps,
                    int* pointsize,
                    int* font_id).

Run Code Online (Sandbox Code Playgroud)

实际上你可以从这里看到它.

归档时间：	14 年，11 月前
查看次数：	10109 次
最近记录：	8 年，6 月前