我很幸运在许多项目中使用大学研究数据集.这些通常很有用,因为需要发布输入和预期结果以独立地重现研究结果.一个例子是下面讨论的第四次OCR准确度年度测试的UNLV数据集.
另一种方法是从数据集开始并创建自己的训练集.与Gutenberg项目合作也是值得的,该项目已经转录了57,136本书.您可以使用HTML版本(带图像)并使用各种变换(如字体,旋转等)将其打印出来.然后您可以转换图像并扫描它们以与文本版本进行比较.请参阅下面的示例.
1)OCR准确度年度测试DOE和UNLV
UNLV的能源部(DOE)和信息科学研究所(ISRI)从1992年到1995年进行了5年的OCR测试.您可以在这里找到每年的研究描述:
1.1)UNLV Tesseract OCR测试数据发表在第四次OCR准确度年度测试中
使用Tesseract进行第四次年度测试的数据在线发布.由于这是一项OCR研究,它可能适合您的目的.
此数据现在作为Google代码上发布的UNLV OCR评估工具项目的ISRI的一部分进行托管:
图像和地面真相文本和区域文件,用于1992年至1996年期间UNLV/ISRI年度OCR准确度测试中使用的数千个英语和一些西班牙语页面.
在UNLV/ISRI OCR准确度年度测试中使用的OCR评估工具的源代码.
UNLV信息科学研究所的出版物适用于OCR和文本检索.
您可以在此处找到有关此数据集的信息:
在数据集链接中,您可以找到许多可以下载的gziped tarball.在每个tarball中都有许多带有一组文件的目录.每个文档有3个文件:
.tif 二进制图像文件.txt 文本文件.uzn 区域文件,用于描述扫描图像注意:发布时,我注意到这个数据集最初发布在@Stef上面的评论中.
2)古腾堡项目
古腾堡计划以下列格式转录了57,136本免费电子书:
以下是一个例子:http://www.gutenberg.org/ebooks/766
您可以通过执行以下操作来创建测试数据集:
创建测试文件:
测试:
| 归档时间: |
|
| 查看次数: |
1762 次 |
| 最近记录: |