我在网上找到的所有内容都是关于OCR的,但我还没有,我仍然需要识别图像中的字母.
任何帮助将不胜感激
我正在运行Tesseract 2.04来读取PNG文件,但我收到此错误: -
Tesseract Open Source OCR Engine
name_to_image_type:Error:Unrecognized image type:png.png
IMAGE::read_header:Error:Can't read this image type:png.png
Tessedit:Error:Read of file failed:png.png
Signal_exit 31 ABORT. LocCode: 3 AbortCode: 3
Run Code Online (Sandbox Code Playgroud)
我到处搜索并尝试了几件事,但找不到根本原因.有些页面提示安装一些Leptonica库,但没有具体说明.似乎每个人的Tesseract版本都可以默认读取PNG文件.我能错过什么?
谢谢!
我在Ubuntu Linux上使用tesseract-ocr软件包,我已经使用了一段时间,我认为为了提高OCR的准确性,我只需要字母表中的字母子集.我需要的信件是:
0123456789abcdefghijklmnopqrstuvwxyz
Run Code Online (Sandbox Code Playgroud)
只有那个,甚至不是大写字母,任何人都可以帮我指示tesseract只匹配一部分字母吗?
谢谢,
我有一个tiff文件,其中包含一些由制表符分隔的文本(4个空格).但是当我从这个tiff图像文件中提取文本时,我总是在两列之间得到一个空格.示例示例:
TIFF IMAGE:
col-a col-b col-c
desired output:
col-a col-b col-c
but I am getting the following:
col-a col-b col-c
Run Code Online (Sandbox Code Playgroud)
我尝试使用相同格式的多个图像,但结果始终相同.我该如何解决这个问题?我可以训练tesseract来理解这个吗?
我曾尝试将 tess4j 作为一个独立的 Java 程序,它可以正常提供文本输出。
现在我正在尝试创建一个 spring mvc web 项目,在 pom 中添加 tess4j 的依赖项,并且我在我的项目中添加了 tess4j 源。
File imageFile = new File("D:/Data/jars/tess/eurotext.tif");
Tesseract instance = Tesseract.getInstance(); // JNA Interface Mapping
// Tesseract1 instance = new Tesseract1(); // JNA Direct Mapping
try {
result = instance.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
Run Code Online (Sandbox Code Playgroud)
当我尝试在项目中运行一个独立的 java 程序时,上面的代码可以正常工作。所以很明显 jar 文件被添加到正确的构建路径中。
但是当我在控制器映射或服务中调用代码时,它会引发运行时异常。
SEVERE: Unsupported image format. May need to install JAI Image I/O package.
https://java.net/projects/jai-imageio/
java.lang.RuntimeException: Unsupported image format. May need to install JAI …Run Code Online (Sandbox Code Playgroud) 我想将tesseract ocr用于Xamarin.Android和Xamarin.iOS应用程序.我找到了iOS的绑定(https://github.com/jherby2k/Xamarin-Tesseract-OCR-iOS-Unified).
是否有Android的等价物?
我试图为Android Studio构建tesseract ocr库,我使用了Internet上的tutorilas,其中包含一些可在cmd上运行的命令。但是,问题是我没有得到如何准确运行这些代码的方法,因为我已经在d驱动器中下载了ndk,那么它将如何在项目目录中使用命令。请任何人告诉我运行这些命令的步骤。最近三天以来,我经历了很多托托伊拉岛,但我仍然无法建造。我发现的命令是,git clone git://github.com/rmtheis/tess-两个tess cd tess cd tess-two ndk-build android更新项目--path。蚂蚁释放
我使用tesseract来检测图像上的字符。
try
{
using (var engine = new TesseractEngine(@"C:\Users\ea\Documents\Visual Studio 2015\Projects\ocrtTest", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
Bitmap src = (Bitmap)Image.FromFile(testImagePath);
using (var page = engine.Process(img))
{
var text = page.GetHOCRText(1);
File.WriteAllText("test.html", text);
//Console.WriteLine("Text: {0}", text);
//Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
int p = 0;
int l = 0;
int w = 0;
int s = 0;
int counter = 0;
using (var iter = page.GetIterator())
{
iter.Begin();
do
{
do
{
do
{
do
{
do
{ …Run Code Online (Sandbox Code Playgroud) 我正在编写一个文本识别程序,并且在编写轮廓时遇到了问题。该程序可以很好地处理一行文本,但是当涉及到整个文本块时,我的程序不会像80%的时间那样检测到文本行。提取一行文本然后提取所有其他行(一次一个)的真正有效方法是什么?
我要达到的目标:
我正在尝试在Laravel Homestead(Ubuntu 18.04)上安装OpenALPR。首先,我尝试了“最简单的方法”。我正在尝试运行:
Run Code Online (Sandbox Code Playgroud)Error opening data file /usr/share/openalpr/runtime_data/ocr/lus.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language 'lus' Tesseract couldn't load any languages! Segmentation fault (core dumped)
我cd进入/usr/share/openalpr/runtime_data/ocr目录,但没有找到lus.traineddata文件。但是有一个ocr文件夹,还有一个lus.traineddata。我从那里将其复制到目录,然后再次尝试识别,但是这次:
-(!)运行时目录'/ usr / share / openalpr / runtime_data'无效。缺少该国家的OCR数据:“我们”!加载OpenALPR时出错
然后我尝试了简易方法。一切都正常编译。但:
分段故障(核心已转储)