包含OCR基准测试集的免费资源

SuT*_*ron 12 ocr tesseract dataset

我想为扫描文本(通常是任何扫描,即A4)进行OCR基准测试.我能在这里找到一些NEOCR数据集,但NEOCR并不是我想要的.

我希望链接到具有适当图像的免费数据库源和引用的实际文本(包含在图像中).

我希望这个线程对其他人进行OCR冲浪数据集也很有用,因为我没有找到任何对这些数据源的良好引用.

谢谢!

Gro*_*ify 7

我很幸运在许多项目中使用大学研究数据集.这些通常很有用,因为需要发布输入和预期结果以独立地重现研究结果.一个例子是下面讨论的第四次OCR准确度年度测试的UNLV数据集.

另一种方法是从数据集开始并创建自己的训练集.与Gutenberg项目合作也是值得的,该项目已经转录了57,136本书.您可以使用HTML版本(带图像)并使用各种变换(如字体,旋转等)将其打印出来.然后您可以转换图像并扫描它们以与文本版本进行比较.请参阅下面的示例.

1)OCR准确度年度测试DOE和UNLV

UNLV的能源部(DOE)和信息科学研究所(ISRI)从1992年到1995年进行了5年的OCR测试.您可以在这里找到每年的研究描述:

1.1)UNLV Tesseract OCR测试数据发表在第四次OCR准确度年度测试中

使用Tesseract进行第四次年度测试的数据在线发布.由于这是一项OCR研究,它可能适合您的目的.

此数据现在作为Google代码上发布的UNLV OCR评估工具项目的ISRI的一部分进行托管:

图像和地面真相文本和区域文件,用于1992年至1996年期间UNLV/ISRI年度OCR准确度测试中使用的数千个英语和一些西班牙语页面.

在UNLV/ISRI OCR准确度年度测试中使用的OCR评估工具的源代码.

UNLV信息科学研究所的出版物适用于OCR和文本检索.

您可以在此处找到有关此数据集的信息:

在数据集链接中,您可以找到许多可以下载的gziped tarball.在每个tarball中都有许多带有一组文件的目录.每个文档有3个文件:

  • .tif 二进制图像文件
  • .txt 文本文件
  • .uzn 区域文件,用于描述扫描图像

注意:发布时,我注意到这个数据集最初发布在@Stef上面的评论中.

2)古腾堡项目

古腾堡计划以下列格式转录了57,136本免费电子书:

  • HTML
  • EPUB(带图片)
  • EPUB(无图像)
  • Kindle(带图片)
  • Kindle(没有图像)
  • 纯文本UTF-8

以下是一个例子:http://www.gutenberg.org/ebooks/766

您可以通过执行以下操作来创建测试数据集:

创建测试文件:

  1. 从HTML,ePub,Kindle或纯文本版本开始
  2. 使用不同的字体,旋转,背景颜色,有和没有图像等渲染和变换.
  3. 将渲染转换为所需的格式,例如TIFF,PDF等.

测试:

  1. 通过OCR系统运行生成的图像
  2. 与原始纯文本版本比较