我正在尝试对大量文档进行 OCR(我的意思是每天 300k + 范围)。目前我正在为 .NET使用 Tesseract 包装器,它的质量都很好,但速度不够好。我从同一 pdf 中并行扫描半页的 20 个任务平均每次扫描为 2,546 秒。我使用的代码:
using (var engine = new TesseractEngine(Tessdata, "eng", EngineMode.TesseractOnly))
{
Page page;
page = engine.Process(image, srcRect);
var text = page.GetText();
return Task.FromResult(text);
}
Run Code Online (Sandbox Code Playgroud)
我得到的平均时间是将图像的分辨率降低一半并将其转换为灰度之后。有什么想法可以加快这个过程吗?我不需要分割文本,只需要一行中的文本。我应该使用一些东西作为c# 的 Matlab 吗?
我正在尝试实现类似的目标,但底部有图例。当我尝试添加它最多时我可以得到这样的东西: 
我正在考虑将图例分离到另一个div,例如
<div id="js-legend" class="chart-legend"></div>
Run Code Online (Sandbox Code Playgroud)
但用以前的解决方案来实现它会很好。
先谢谢您的帮助