Pek*_*kka 2 python dataset tensorflow
使用旧的输入管道 API,我可以:
filename_queue = tf.train.string_input_producer(filenames, shuffle=True)
Run Code Online (Sandbox Code Playgroud)
然后将文件名传递给其他队列,例如:
reader = tf.TFRecordReader()
_, serialized_example = reader.read_up_to(filename_queue, n)
Run Code Online (Sandbox Code Playgroud)
如何使用 Dataset -API 实现类似的行为?
tf.data.TFRecordDataset()文件名的期望张量按固定顺序。
开始按顺序阅读它们,然后立即随机播放:
BUFFER_SIZE = 1000 # arbitrary number
# define filenames somewhere, e.g. via glob
dataset = tf.data.TFRecordDataset(filenames).shuffle(BUFFER_SIZE)
Run Code Online (Sandbox Code Playgroud)
这个问题的输入管道让我了解了如何使用 Dataset API 实现文件名改组:
dataset = tf.data.Dataset.from_tensor_slices(filenames)
dataset = dataset.shuffle(BUFFER_SIZE) # doesn't need to be big
dataset = dataset.flat_map(tf.data.TFRecordDataset)
dataset = dataset.map(decode_example, num_parallel_calls=5) # add your decoding logic here
# further processing of the dataset
Run Code Online (Sandbox Code Playgroud)
这会将一个文件的所有数据放在下一个文件之前,依此类推。文件被打乱,但其中的数据将以相同的顺序生成。您也可以替换dataset.flat_map为interleave同时处理多个文件并从每个文件中返回样本:
dataset = dataset.interleave(tf.data.TFRecordDataset, cycle_length=4)
Run Code Online (Sandbox Code Playgroud)
注意: interleave实际上并没有在多个线程中运行,它是一个循环操作。对于真正的并行处理,请参见parallel_interleave
| 归档时间: |
|
| 查看次数: |
3601 次 |
| 最近记录: |