标签: image-recognition

我可以使用 openCV 比较两张不同图像上的两张脸吗？

我对 openCV 很陌生，我看到它可以计算出脸部并返回一个矩形来指示脸部。我想知道 openCV 是否可以访问两张包含一张脸的图像，并且我希望 openCV 返回这两个人是否相同的可能性。

谢谢。

opencv image-recognition

Blu*_*hin

lucky-day

5
推荐指数

1
解决办法

4554
查看次数

OpenCV - 身体轮廓腋窝检测

再会。

我正在尝试使用 openCV 分析人体轮廓。我已经识别了头部（轮廓的最高点）、左臂和右臂（最左点和最右点）、左腿和右腿（我将身体轮廓分成两半并找到了最低点）。我也有肩点（相应的腿和脚之间的最高点）。

但我还需要识别腋窝，但我不知道如何识别。这是我已经拥有的（红色轮廓是我的轮廓。我正在使用 HSV 图像，如果这很重要的话）：

在此输入图像描述

c++ python opencv image-recognition

Nau*_*sik

2014 10-17

5
推荐指数

1
解决办法

4565
查看次数

识别并提取 PDF 文档的特定部分

我有几份 PDF 格式的考试。我想以编程方式将每个问题提取为单独的图像/文档。OCR 并不理想，因为它不能很好地维护代码/方程格式。最终目标是制作闪存卡，每张卡都包含整个问题的图像。问题可以在同一页上，也可以由多个部分组成（例如 1a、2f 等）。

目前，我正在考虑使用 OCR 来提取问题标签（例如 1、2、3 等），然后找到它们在 pdf 中的位置，并提取从一个问题的开头到下一个问题的开头的图像。是否有任何框架或软件可以做到这一点或提供某种替代方法来使这更容易？

python pdf ocr image-recognition pdf-parsing

aki*_*aki

2017 11-07

5
推荐指数

1
解决办法

1万
查看次数

分割掩模 RCNN 和 FPN

我正在阅读 Facebook Research 的论文https://research.fb.com/wp-content/uploads/2017/08/maskrcnn.pdf。

Mask RCNN 基于检测器 Faster RCNN，但进行了一些改进，例如 FPN（特征金字塔网络）、ROI 对齐，这似乎比 ROI 池化更准确。但是，我不理解关于 FPN 和 Mask RCNN 中的 mask 的架构。事实上，FPN 允许获取不同尺度的特征图，但看看论文上的图像，我不明白他们是否只使用了 FPN 上的最后一个特征图。

所以，问题是：我们是否只使用 RPN 的最后一个特征图，然后使用一些卷积层来预测掩模（用于分割），或者我们还使用 RPN 的中间层？

image-recognition computer-vision image-segmentation deep-learning

Shi*_*iro

2018 05-11

5
推荐指数

1
解决办法

2983
查看次数

如何在实时跟踪中将 3D 对象包裹在检测到的对象周围

我已经为脚创建了 ML 模型作为 VNRecognizedObjectObservation 现在我能够成功地在实时跟踪中检测脚，问题是我无法将 3D 对象包裹或放置在脚上，因为我需要 3 个坐标来放置 AR 内容。

我使用下面的代码在视觉框架检测到我的脚后获取边界框

func drawVisionRequestResults(_ results: [Any]) {
        CATransaction.begin()
        CATransaction.setValue(kCFBooleanTrue, forKey: kCATransactionDisableActions)
        detectionOverlay.sublayers = nil // remove all the old recognized objects

        let obs = results.first
        let final = obs

        for observation in results where observation is VNRecognizedObjectObservation {
            guard let objectObservation = observation as? VNRecognizedObjectObservation else {
                continue
            }
            // Select only the label with the highest confidence.
            let topLabelObservation = objectObservation.labels[0]
            let objectBounds = VNImageRectForNormalizedRect(objectObservation.boundingBox, Int(bufferSize.width), Int(bufferSize.height))

            let shapeLayer …

Run Code Online (Sandbox Code Playgroud)

image-recognition swift apple-vision arkit coreml

Sai*_*aif

2022 04-03

5
推荐指数

0
解决办法

426
查看次数

R 中的 tesseract - 在黑色背景上读取白色字体

所以，我对超正方体相当陌生，有些人在这个论坛上遇到了与我类似的问题，但我无法得到令人满意的解决方案，因此我发布了这个问题。

我有来自街头摄像机的照片，我想获得镜头的时间戳。剪掉时间戳后，它们看起来像这样：

我通过将 tesseract 与 R 结合使用来解决这个问题：

library(tesseract)
library(magick)
eng <- tesseract("eng")

input <- image_read("image from above")

Run Code Online (Sandbox Code Playgroud)

使用基本的超正方体我得到：

input %>% tesseract::ocr(,engine = eng) 
# [1] "SRE SAA PRO 206197180731 17:33:88\n"

Run Code Online (Sandbox Code Playgroud)

显然，这并没有多大帮助。因此，在阅读了这个问题后，我尝试了以下方法：

text <- input %>%
  image_resize("2000x") %>%
  image_convert(type = 'Grayscale') %>%
  image_trim(fuzz = 40) %>%
  image_write(format = 'png', density = '300x300') %>%
  tesseract::ocr() 

cat(text)

# es bt i deen | ee) eee i ae 2s ee ee ee eee ec ee |

Run Code Online (Sandbox Code Playgroud)

这个结果更加糟糕，着实令人沮丧。我怎样才能得到正确的结果？热烈欢迎任何帮助:)

编辑

@Max Teflon 回答了此示例的问题。然而，我意识到有些图像仍然被错误地读取，例如