标签: text-recognition

TensorFlow - 图像中的文本识别

我是TensorFlow和Deep Learning的新手.我试图识别naturel场景图像中的文本.我曾经使用OCR,但我想使用深度学习.文本的格式始终相同: ABC-DEF 88:88.

我所做的是识别每个字符/数字.这意味着我在每个角色周围裁剪图像(因此每张图片给我10个字符)来构建我的训练和测试集,并构建一个两个转换神经网络.所以我的训练集是一组角色图片,标签只是字符/数字.

但我想更进一步.我想做的只是提供完整的图片并输出整个文本(不是我以前的模型中的一个字符).

预先感谢您的任何帮助.

python text-recognition deep-learning tensorflow

8
推荐指数
1
解决办法
1万
查看次数

文本识别 :: Google ML Kit 无法识别七段显示数字和小数

我正在尝试使用 ML 套件从七段显示图像中获取数字,但它无法识别图像中的数字或小数。它可以识别图像中的普通文本和数字,但不能识别七段显示图像中的文本和数字。请参阅下面的我的发现。

1.适用于普通文本和数字

a) 带文字

有数字

2.无法识别七段显示图像中的数字

七段显示图像

还有其他方法可以实现这一目标吗?

android text-recognition firebase seven-segment-display firebase-mlkit

8
推荐指数
0
解决办法
745
查看次数

如何使用Mobile Vision API获取图像中的文本位置?

如何使用Mobile Vision API在图像中获取文本在屏幕上的位置,以及如何在它们周围绘制矩形?

例:

在此输入图像描述

android text-recognition imageview xamarin vision-api

8
推荐指数
1
解决办法
2009
查看次数

如何在 Python 中检测文本文档图像中不一致文本结构的段落

我试图.pdf通过首先将其转换为图像然后使用 OpenCV来识别文档中的文本段落。但是我在文本行而不是段落上得到了边界框。如何设置一些阈值或其他限制来获取段落而不是行?

这是示例输入图像:

输入

这是我为上述示例获得的输出:

输出

我试图在中间的段落上获得一个边界框。我正在使用代码。

import cv2
import numpy as np

large = cv2.imread('sample image.png')
rgb = cv2.pyrDown(large)
small = cv2.cvtColor(rgb, cv2.COLOR_BGR2GRAY)

# kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (3, 3))
kernel = np.ones((5, 5), np.uint8)
grad = cv2.morphologyEx(small, cv2.MORPH_GRADIENT, kernel)

_, bw = cv2.threshold(grad, 0.0, 255.0, cv2.THRESH_BINARY | cv2.THRESH_OTSU)

kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (9, 1))
connected = cv2.morphologyEx(bw, cv2.MORPH_CLOSE, kernel)

# using RETR_EXTERNAL instead of RETR_CCOMP
contours, hierarchy = cv2.findContours(connected.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
#For opencv 3+ comment the previous line …
Run Code Online (Sandbox Code Playgroud)

python opencv image-processing bounding-box text-recognition

8
推荐指数
1
解决办法
7812
查看次数

识别德尔福图片中的文字

我需要有关如何解决这个问题的建议.我有一些图片数据:*.jpg,*.bmp ...我需要从中提取数据.数据是字母数字文本.我在德尔福工作.

delphi ocr image-recognition delphi-2009 text-recognition

7
推荐指数
1
解决办法
9779
查看次数

使用哪个库从图像中提取文本?

我正在编写一个程序,当给出低级数学问题的图像(例如98*13)时,应该能够输出答案.数字为黑色,背景为白色.不是验证码,只是数学问题的图像.

数学问题只有两个数字和一个运算符,该运算符只能是+, - ,*或/.

显然,我知道如何进行计算;)我只是不确定如何从图像中获取文本.

一个免费的图书馆将是理想的...虽然如果我必须自己编写代码,我可能会管理.

c# ocr text-recognition

7
推荐指数
2
解决办法
3万
查看次数

JavaScript文本识别和<canvas>上的OCR

我找到了一个识别手写数学方程式的Web应用程序:

http://webdemo.visionobjects.com/equation.html?locale=default

我想知道是否有人知道应用程序或教程或实现此机制的开源项目,因为从这个webapp获取它真的很复杂.

注意:我只需要将画布中绘制的等式转换为输入文本框即可.

javascript ocr text-recognition html5-canvas

7
推荐指数
2
解决办法
1万
查看次数

在R中将图像转换为黑白图像识别

我正在尝试获得一些自动文本识别的经验,我正在使用包tesseract在某些图像上执行ocr(即我拍摄的一些截图).

为了提高我的程序识别下图中价格的性能,我使用magick软件包对图像进行了一些预处理,方法是通过改变亮度和饱和度参数来增加图像的对比度.

但是,我认为通过转换为黑白图像可以进一步提高性能.

如何在R中有效地实现这一目标?

原始图像 原始图像

经过预处理 我的预售后的形象

tesseract r image-processing contrast text-recognition

7
推荐指数
2
解决办法
1727
查看次数

为什么 FirebaseVisionImage.fromMediaImage() 会产生 OutOfMemoryError

构建CameraX,调用analyze() 方法并传递图像,然后使用close() 方法关闭(删除)。从此图像 FirebaseVisionImage 被创建并传递以进行处理(文本识别)。代码示例和代码实验室不同,不使用 CameraX 或使用旧 API 版本实现 TextRecognition。

堆栈跟踪

  override fun analyze(imageProxy: ImageProxy) {
    if (isValidText) {
        imageProxy.close()
        return
    }
    val mediaImage = imageProxy.image // requires annotation
    val degrees = imageProxy.imageInfo.rotationDegrees
    val rotation = rotationDegreesToFirebaseRotation(degrees)
    if (mediaImage != null) {
        runTextRecognition(mediaImage, rotation)  // line 44
    }
    imageProxy.close()
} 


private fun runTextRecognition(mediaImage: Image, rotation: Int) {
    // Create FirebaseVisionImage from frame
    val visionImage = FirebaseVisionImage.fromMediaImage(mediaImage, rotation) // line 64
    val recognizer = FirebaseVision.getInstance()
        .onDeviceTextRecognizer
    recognizer.processImage(visionImage)
        .addOnSuccessListener { texts ->
            processTextRecognitionResult(texts!!, …
Run Code Online (Sandbox Code Playgroud)

ocr out-of-memory text-recognition firebase-mlkit android-camerax

7
推荐指数
1
解决办法
753
查看次数

如何在 Android 上使用 Firebase ML Kit 检测个位数?

我遵循了Android 上 Firebase ML Kit的设置指南,并创建了一个简单的应用程序,该应用程序可以使用设备上的文本识别器识别位图图像上的文本。它开箱即用,效果很好,但有一种情况似乎不起作用:识别个位数。

在这张图片中,它可以识别所有超过一位的数字,但不能识别一位数的数字。

在此处输入图片说明

当我调试返回的 FirebaseVisionText 对象时,我看到 12、10、45%、10 和 83%,但没有看到 6、2、0、0、0 和 2。

我正在使用 ocr 模型(在清单中定义):

 <meta-data
        android:name="com.google.firebase.ml.vision.DEPENDENCIES"
        android:value="ocr" />
Run Code Online (Sandbox Code Playgroud)

是否有任何其他模型或某些配置可以更改,以允许文本识别器检测单个数字?

android text-recognition firebase firebase-mlkit

6
推荐指数
0
解决办法
1034
查看次数