我是TensorFlow和Deep Learning的新手.我试图识别naturel场景图像中的文本.我曾经使用OCR,但我想使用深度学习.文本的格式始终相同:
ABC-DEF 88:88.
我所做的是识别每个字符/数字.这意味着我在每个角色周围裁剪图像(因此每张图片给我10个字符)来构建我的训练和测试集,并构建一个两个转换神经网络.所以我的训练集是一组角色图片,标签只是字符/数字.
但我想更进一步.我想做的只是提供完整的图片并输出整个文本(不是我以前的模型中的一个字符).
预先感谢您的任何帮助.
我正在尝试使用 ML 套件从七段显示图像中获取数字,但它无法识别图像中的数字或小数。它可以识别图像中的普通文本和数字,但不能识别七段显示图像中的文本和数字。请参阅下面的我的发现。
1.适用于普通文本和数字
2.无法识别七段显示图像中的数字
还有其他方法可以实现这一目标吗?
android text-recognition firebase seven-segment-display firebase-mlkit
我试图.pdf通过首先将其转换为图像然后使用 OpenCV来识别文档中的文本段落。但是我在文本行而不是段落上得到了边界框。如何设置一些阈值或其他限制来获取段落而不是行?
这是示例输入图像:
这是我为上述示例获得的输出:
我试图在中间的段落上获得一个边界框。我正在使用此代码。
import cv2
import numpy as np
large = cv2.imread('sample image.png')
rgb = cv2.pyrDown(large)
small = cv2.cvtColor(rgb, cv2.COLOR_BGR2GRAY)
# kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (3, 3))
kernel = np.ones((5, 5), np.uint8)
grad = cv2.morphologyEx(small, cv2.MORPH_GRADIENT, kernel)
_, bw = cv2.threshold(grad, 0.0, 255.0, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (9, 1))
connected = cv2.morphologyEx(bw, cv2.MORPH_CLOSE, kernel)
# using RETR_EXTERNAL instead of RETR_CCOMP
contours, hierarchy = cv2.findContours(connected.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
#For opencv 3+ comment the previous line …Run Code Online (Sandbox Code Playgroud) python opencv image-processing bounding-box text-recognition
我需要有关如何解决这个问题的建议.我有一些图片数据:*.jpg,*.bmp ...我需要从中提取数据.数据是字母数字文本.我在德尔福工作.
我正在编写一个程序,当给出低级数学问题的图像(例如98*13)时,应该能够输出答案.数字为黑色,背景为白色.不是验证码,只是数学问题的图像.
数学问题只有两个数字和一个运算符,该运算符只能是+, - ,*或/.
显然,我知道如何进行计算;)我只是不确定如何从图像中获取文本.
一个免费的图书馆将是理想的...虽然如果我必须自己编写代码,我可能会管理.
我找到了一个识别手写数学方程式的Web应用程序:
http://webdemo.visionobjects.com/equation.html?locale=default
我想知道是否有人知道应用程序或教程或实现此机制的开源项目,因为从这个webapp获取它真的很复杂.
注意:我只需要将画布中绘制的等式转换为输入文本框即可.
我正在尝试获得一些自动文本识别的经验,我正在使用包tesseract在某些图像上执行ocr(即我拍摄的一些截图).
为了提高我的程序识别下图中价格的性能,我使用magick软件包对图像进行了一些预处理,方法是通过改变亮度和饱和度参数来增加图像的对比度.
但是,我认为通过转换为黑白图像可以进一步提高性能.
如何在R中有效地实现这一目标?
构建CameraX,调用analyze() 方法并传递图像,然后使用close() 方法关闭(删除)。从此图像 FirebaseVisionImage 被创建并传递以进行处理(文本识别)。代码示例和代码实验室不同,不使用 CameraX 或使用旧 API 版本实现 TextRecognition。
override fun analyze(imageProxy: ImageProxy) {
if (isValidText) {
imageProxy.close()
return
}
val mediaImage = imageProxy.image // requires annotation
val degrees = imageProxy.imageInfo.rotationDegrees
val rotation = rotationDegreesToFirebaseRotation(degrees)
if (mediaImage != null) {
runTextRecognition(mediaImage, rotation) // line 44
}
imageProxy.close()
}
private fun runTextRecognition(mediaImage: Image, rotation: Int) {
// Create FirebaseVisionImage from frame
val visionImage = FirebaseVisionImage.fromMediaImage(mediaImage, rotation) // line 64
val recognizer = FirebaseVision.getInstance()
.onDeviceTextRecognizer
recognizer.processImage(visionImage)
.addOnSuccessListener { texts ->
processTextRecognitionResult(texts!!, …Run Code Online (Sandbox Code Playgroud) ocr out-of-memory text-recognition firebase-mlkit android-camerax
我遵循了Android 上 Firebase ML Kit的设置指南,并创建了一个简单的应用程序,该应用程序可以使用设备上的文本识别器识别位图图像上的文本。它开箱即用,效果很好,但有一种情况似乎不起作用:识别个位数。
在这张图片中,它可以识别所有超过一位的数字,但不能识别一位数的数字。
当我调试返回的 FirebaseVisionText 对象时,我看到 12、10、45%、10 和 83%,但没有看到 6、2、0、0、0 和 2。
我正在使用 ocr 模型(在清单中定义):
<meta-data
android:name="com.google.firebase.ml.vision.DEPENDENCIES"
android:value="ocr" />
Run Code Online (Sandbox Code Playgroud)
是否有任何其他模型或某些配置可以更改,以允许文本识别器检测单个数字?
text-recognition ×10
ocr ×4
android ×3
firebase ×2
python ×2
bounding-box ×1
c# ×1
contrast ×1
delphi ×1
delphi-2009 ×1
html5-canvas ×1
imageview ×1
javascript ×1
opencv ×1
r ×1
tensorflow ×1
tesseract ×1
vision-api ×1
xamarin ×1