黑白图像文档聚类

PSN*_*SNR 5 python opencv cluster-analysis machine-learning computer-vision

我有一些黑白文档(图像扫描),并希望根据它们的布局对它们进行聚类.为了使事情更具体,说我有以下三个图像,前两个更可能落入同一个集群而不是第三个图像,因为前两个具有相对相似的布局.

我的问题是,什么是聚类文件的最佳方法?现在我有几个初步的方法:

  • 获取图像哈希并比较哈希值
  • 使用PCA和一些聚类技术(K-means)来比较低维表示
  • 使用OCR提取字符串,提取文本功能并进行比较
  • 使用OCR提取字符串并进行一些关键字搜索

还有其他更好的方法吗?同样,只有布局很重要.

第一张图片

第二张图片

第3张图片

Ano*_*sse 1

不要尝试对原始数据进行聚类。

聚类是无监督的,它无法了解哪些属性重要,哪些属性不重要。对于聚类算法来说,一切都很重要。

相反,首先定义布局相关功能。比如长边。