小编Ste*_* W.的帖子

使用比Ram更多数据的Tensorflow数据集和估算器

我最近改变了我的建模框架以使用自定义Tensorflow Estimators和Datasets,并且对这个工作流程非常满意.

但是,我刚刚注意到我的dataset_input_fn如何从tfrecords加载数据的问题.我的输入函数是在Tensorflow文档中的示例之后建模的.当我有更多的例子而不是我可以适应RAM时,会出现问题.如果我有1e6个示例,并将我的shuffle buffer_size设置为1e5,则选择1e5示例的子集一次,随机,然后迭代.这意味着我的模型仅在我的整个数据集的10%上进行训练.设置此行为的代码完全来自Tensorflow文档示例代码:

dataset = dataset.map(parser)
dataset = dataset.shuffle(buffer_size=10000)
dataset = dataset.batch(32)
dataset = dataset.repeat(num_epochs)
iterator = dataset.make_one_shot_iterator()

Run Code Online (Sandbox Code Playgroud)

我的问题:当我训练时,是否有可能在最初的1e5之外用新的例子填充shuffle缓冲区？one_shot_iterator是否支持此类功能？我需要使用可初始化的迭代器吗？

谢谢!

tensorflow tensorflow-datasets tensorflow-estimator

Ste*_* W.

2018 02-02

6
推荐指数

1
解决办法

759
查看次数