权重和偏差扫描 Keras K-Fold 验证

Mar*_*s M 2 python keras k-fold wandb

我正在使用 Keras 进行基于云的权重和偏差扫描。因此,首先我在 W&B 项目中创建一个新的 Sweep,其配置如下:

description: LSTM Model
method: random
metric:
  goal: maximize
  name: val_accuracy
name: LSTM-Sweep
parameters:
  batch_size:
    distribution: int_uniform
    max: 128
    min: 32
  epochs:
    distribution: constant
    value: 200
  node_size1:
    distribution: categorical
    values:
    - 64
    - 128
    - 256
  node_size2:
    distribution: categorical
    values:
    - 64
    - 128
    - 256
  node_size3:
    distribution: categorical
    values:
    - 64
    - 128
    - 256
  node_size4:
    distribution: categorical
    values:
    - 64
    - 128
    - 256
  node_size5:
    distribution: categorical
    values:
    - 64
    - 128
    - 256
  num_layers:
    distribution: categorical
    values:
    - 1
    - 2
    - 3
  optimizer:
    distribution: categorical
    values:
    - Adam
    - Adamax
    - Adagrad
  path:
    distribution: constant
    value: "./path/to/data/"
program: sweep.py
project: SLR
Run Code Online (Sandbox Code Playgroud)

我的sweep.py文件看起来像这样:

# imports
init = wandb.init(project="my-project", reinit=True)
config = wandb.config

def main():
    skfold = StratifiedKFold(n_splits=5, 
    shuffle=True, random_state=7)
    cvscores = []
    group_id = wandb.util.generate_id()
    X,y = # load data
    i = 0
    for train, test in skfold.split(X,y):
        i=i+1
        run = wandb.init(group=group_id, reinit=True, name=group_id+"#"+str(i))
        model = # build model
        model.fit([...], WandBCallback())
        cvscores.append([...])
        wandb.join()

if __name__ == "__main__":
    main()
Run Code Online (Sandbox Code Playgroud)

wandb agent使用 文件夹中的命令启动此操作sweep.py

我对此设置的体验是,通过第一次 wandb.init() 调用,新的运行被初始化。好吧,我可以删除它。但是,当第二次调用 wandb.init() 时,它似乎失去了对正在运行的扫描的跟踪。在线扫描中列出了一个空运行(因为第一次 wandb.init() 调用),所有其他运行已在项目内列出,但未在扫描中列出。

我的目标是运行 k 折交叉验证的每一折。至少我认为这是正确的做法。是否有不同的方法将扫描与 keras k 倍交叉验证相结合?

Jef*_*hek 6

我们整理了一个如何完成 k 折交叉验证的示例:

https://github.com/wandb/examples/tree/master/examples/wandb-sweeps/sweeps-cross-validation

该解决方案需要对 wandb 库进行一些调整,以代表已启动的扫描作业生成多个作业。

基本思想是:

  • 代理从云托管参数服务器请求一组新参数。sweep_run这是在 main 函数中调用的 run 。
  • 将有关折叠应通过多处理队列处理的内容的信息发送给等待进程
  • 每个生成的进程都会记录自己的运行,并使用 group 和 job_type 进行组织,以在 UI 中启用自动分组
  • 该过程完成后,它通过队列将主要指标发送到父扫描运行
  • 扫描运行从子运行读取指标并将其记录到扫描运行,以便扫描可以使用该结果来影响未来的参数选择和/或超频带提前终止优化

扫描和 k 重分组的可视化示例如下:

  • 欢迎来到堆栈溢出!尽管您通常应该在答案中包含代码,但在这种情况下它会变得非常冗长,因此您确实链接了它,但仍然努力在答案中解释解决方案。这正是在这种情况下应该做的。谢谢你的回答,你得到了我的支持。 (3认同)