"model.fit_generator"中使用的参数"max_q_size"是什么?

Ray*_*Ray 23 python machine-learning generator keras

我构建了一个简单的生成器,tuple(inputs, targets)inputstargets列表中只生成一个单项.基本上,它一次抓取数据集,一个样本项.

我把这个发生器传递给:

  model.fit_generator(my_generator(),
                      nb_epoch=10,
                      samples_per_epoch=1,
                      max_q_size=1  # defaults to 10
                      )
Run Code Online (Sandbox Code Playgroud)

我明白了:

  • nb_epoch 是训练批次的运行次数
  • samples_per_epoch 是每个时期训练的样本数量

但它是什么max_q_size,为什么它会默认为10?我认为使用生成器的目的是将数据集批量化为合理的块,那么为什么要添加额外的队列呢?

lej*_*lot 31

这只是定义了内部训练队列的最大大小,用于从发生器中"预缓存"样本.它在队列生成期间使用

def generator_queue(generator, max_q_size=10,
                    wait_time=0.05, nb_worker=1):
    '''Builds a threading queue out of a data generator.
    Used in `fit_generator`, `evaluate_generator`, `predict_generator`.
    '''
    q = queue.Queue()
    _stop = threading.Event()

    def data_generator_task():
        while not _stop.is_set():
            try:
                if q.qsize() < max_q_size:
                    try:
                        generator_output = next(generator)
                    except ValueError:
                        continue
                    q.put(generator_output)
                else:
                    time.sleep(wait_time)
            except Exception:
                _stop.set()
                raise

    generator_threads = [threading.Thread(target=data_generator_task)
                         for _ in range(nb_worker)]

    for thread in generator_threads:
        thread.daemon = True
        thread.start()

    return q, _stop
Run Code Online (Sandbox Code Playgroud)

换句话说,你有一个线程直接从你的生成器填充队列到给定的最大容量,而(例如)训练例程消耗它的元素(有时等待完成)

 while samples_seen < samples_per_epoch:
     generator_output = None
     while not _stop.is_set():
         if not data_gen_queue.empty():
             generator_output = data_gen_queue.get()
             break
         else:
             time.sleep(wait_time)
Run Code Online (Sandbox Code Playgroud)

为什么默认为10?没有特别的原因,像大多数默认值一样 - 它只是有意义,但你也可以使用不同的值.

这样的构造表明,作者考虑过昂贵的数据生成器,这可能需要时间来进行.例如,考虑在生成器调用中通过网络下载数据 - 然后,为了提高效率并且对网络错误具有鲁棒性,可以预先缓存下一批次,并且并行下载下一批.

  • 啊,我明白了,理想情况下,你永远不会停止等待生成器生成结果的训练 - 当模型训练先前提取的样本时,你有一个线程在后面静默填充队列. (2认同)