Libsvm数据集格式中的样本含义(特别是Mnist)

Cam*_*ela 3 machine-learning dataset libsvm

我从Libsvm的数据集页面下载了Mnist数据.所有样本如下:

5 153:3 154:18 155:18 156:18 157:126 ...
Run Code Online (Sandbox Code Playgroud)

有谁知道这意味着什么?5是类标签,但是153:3例如什么是对?我也找不到mnist自己网页的含义.

roc*_*ker 7

这是libsvm编码(稀疏)向量的方式.正如你所说的那样5是标签,并且以下对i:v表示i向量的第 - 个条目是v.所以你要编码一个三维矢量(a,b,c)为

1:a 2:b 3:c
Run Code Online (Sandbox Code Playgroud)

对于密集向量而言,这是低效的,但对于稀疏数据而言是良好且已建立的格式.由于它是纯文本,因此存储空间不是最佳的,但对于大多数应用程序来说已经足够好了.而文件易于编写和阅读.