TFRecords和记录改组

bob*_*obw 11 tensorflow

我的理解是,为每个时期改组训练样本是一种好习惯,这样每个小批量包含整个数据集的随机样本.如果我将整个数据集转换为包含TFRecords的单个文件,那么如何在不加载整个数据集的情况下实现这种改组?我的理解是没有对TFRecord文件的有效随机访问.因此,具体而言,我正在寻找有关如何在此方案中使用TFRecord文件的指导.

dga*_*dga 8

它不是 - 您可以通过将输入分为多个输入数据文件来稍微改善混音,然后按照本答案中的说明对其进行处理.

如果你需要任何接近"完美"改组的东西,你需要把它读入内存,但在大多数事情的实践中,你可能只需分成100或1000个文件然后使用shuffle就可以"足够好"了队列足够容纳8-16个文件的数据.

我脑子里痒痒地写了一个可以溢出到磁盘的外部随机随机队列,但是我的优先级列表非常低 - 如果有人想贡献一个,我会自愿审查它.:)

  • 痒怎么样?+1 (14认同)