小编Dan*_*l B的帖子

为什么 EMNIST ByMerge 和 Balanced 数据集各有 47 个类?

我使用 EMNIST 作为使用深度学习进行文本检测和识别的数据集。我从https://pypi.org/project/emnist/下载数据集(使用pip install emnist)。数据集来自https://www.nist.gov/itl/products-and-services/emnist-dataset,其描述如下:

EMNIST ByClass:814,255 个字符。62 个不平衡类。

EMNIST ByMerge:814,255 个字符。47 个不平衡类。

EMNIST 平衡:131,600 个字符。47个平衡班级。

EMNIST 信件:145,600 个字符。26个平衡班级。

EMNIST 数字:280,000 个字符。10个平衡班级。

EMNIST MNIST:70,000 个字符。10个平衡班级。

其中大多数都是有意义的,例如 62 个类别由 10 个数字、26 个大写字母和 26 个小写字母组成。但对于 ByMerge 和 Balanced,我们有 47 个。

我自己查看了数据,找到了 10 个数字,26 个字母(大写和小写的混合),然后据我所知,剩下的 11 个是随机小写字母('a','b','d',' e'、'f'、'g'、'h'、'n'、'q'、'r'、t')。

有谁知道为什么要特别包括这额外的11个?

dataset deep-learning

5
推荐指数
1
解决办法
3005
查看次数

标签 统计

dataset ×1

deep-learning ×1