导入F#中的CIFAR-10数据集

mad*_*ant 0 f# dataset computer-vision

我尝试在F#中导入CIFAR-10数据集" https://www.cs.toronto.edu/~kriz/cifar.html ",有三种格式; python,matlab(MAT)和二进制(bin).请随时评论如何导入数据集?

Ant*_*fer 5

您将不得不使用数据集的二进制版本.CIFAR页面上的描述非常清楚:

第一个字节是第一个图像的标签,它是0-9范围内的数字.接下来的3072个字节是图像像素的值.前1024个字节是红色通道值,下一个1024是绿色,最后1024个是蓝色.值以行主顺序存储,因此前32个字节是图像第一行的红色通道值.

您没有以任何方式指定如何导入数据集,这是我认为有意义的:

  • .tar.gz文件中提取6个批次
  • 对于每批:
  • 创建二进制阅读器
  • 读取包含标签的字节
  • 实例化System.Drawing.Bitmap大小为32 x 32
  • 循环遍历图像的行和列,从文件中读取一个字节,将其设置在图像的红色通道中
  • 用绿色和蓝色通道重复此操作.
  • 以最终格式存储(例如,包含单个PNG文件的目录)