我想从 .jpg 和 .png 文件中提取 Unicode 字符。
我尝试使用以下命令来做到这一点:
tesseract 1.png output.txt
该命令适用于英文字符,但是当我尝试将它用于 Unicode(如印地语、马拉地语或梵文脚本)时,它会产生错误的输出。
是否有任何选项可以使用 OCR 将 Unicode(梵文)脚本提取到文本文件中?
ocr tesseract-ocr
ocr ×1
tesseract-ocr ×1