如何提高 tesseract.js 的准确性?

Pay*_*mB. 5 javascript ocr node.js typescript tesseract.js

我使用网站上的这段代码,但不够准确

 const worker1 = createWorker();
  const worker2 = createWorker();

  await worker1.load();
  await worker2.load();
  await worker1.loadLanguage("eng");
  await worker2.loadLanguage("eng");
  await worker1.initialize("eng");
  await worker2.initialize("eng");

  scheduler.addWorker(worker1);
  scheduler.addWorker(worker2);

  /** Add 10 recognition jobs */
  const {
    data: { text }
  } = await scheduler.addJob("recognize", image);

Run Code Online (Sandbox Code Playgroud)

这是我正在尝试阅读其文本的图像类型:

在此处输入图片说明

你看起来简单易行,有时tesseract无法阅读它。有没有更好的替代 tesseract.js 或任何方法来提高准确性?

nat*_*ncy 3

使用 Tesseract 应用 OCR 时,对图像进行预处理非常重要,以便要检测的文本为黑色,背景为白色。为此,您可以应用一个简单的阈值来获取二值图像。这是预处理后的图像:

在此输入图像描述

超立方体的结果

52024
Run Code Online (Sandbox Code Playgroud)

我在 Python OpenCV 中实现了这种方法,但您可以在 Javascript 中采用类似的策略!

52024
Run Code Online (Sandbox Code Playgroud)