Dan*_*l B 5 dataset deep-learning
我使用 EMNIST 作为使用深度学习进行文本检测和识别的数据集。我从https://pypi.org/project/emnist/下载数据集(使用pip install emnist)。数据集来自https://www.nist.gov/itl/products-and-services/emnist-dataset,其描述如下:
EMNIST ByClass:814,255 个字符。62 个不平衡类。
EMNIST ByMerge:814,255 个字符。47 个不平衡类。
EMNIST 平衡:131,600 个字符。47个平衡班级。
EMNIST 信件:145,600 个字符。26个平衡班级。
EMNIST 数字:280,000 个字符。10个平衡班级。
EMNIST MNIST:70,000 个字符。10个平衡班级。
其中大多数都是有意义的,例如 62 个类别由 10 个数字、26 个大写字母和 26 个小写字母组成。但对于 ByMerge 和 Balanced,我们有 47 个。
我自己查看了数据,找到了 10 个数字,26 个字母(大写和小写的混合),然后据我所知,剩下的 11 个是随机小写字母('a','b','d',' e'、'f'、'g'、'h'、'n'、'q'、'r'、t')。
有谁知道为什么要特别包括这额外的11个?
此后,我通过研究论文 EMNIST:G. Cohen 的 MNIST 手写信件扩展找到了这个问题的答案(可在此处获取: https: //arxiv.org/pdf/1702.05373v1.pdf)。
这解释了许多字母在字符识别中存在问题,即大小写变体非常相似。这会导致尝试对这些字母进行分类时出现问题。为了解决这个问题,他们合并了他们认为有问题的字母。
来自论文:
根据 NIST 的建议,合并的类别适用于字母 C、I、J、K、L、M、O、P、S、U、V、W、X、Y 和 Z。
这说明了缺失的类别(尽管我希望看到 62 个平衡类别选项或所有字母合并的 36 个类别选项)。
| 归档时间: |
|
| 查看次数: |
3005 次 |
| 最近记录: |