小编mor*_*nor的帖子

resnet50迁移学习期间的大量过拟合

这是我第一次尝试使用CNN做某事，因此我可能做的很愚蠢-但无法弄清楚我错了...

该模型似乎学习得很好，但是验证准确性并没有提高（甚至-在第一个时期之后），并且验证损失实际上随着时间而增加。看起来我不太适合（1个时期后？）-我们必须以其他方式关闭。

我正在训练一个CNN网络-我有约100k种各种植物（1000个类）的图像，并想对ResNet50进行微调以创建一个多类分类器。图片大小各异，我像这样加载它们：

from keras.preprocessing import image                  

def path_to_tensor(img_path):
    # loads RGB image as PIL.Image.Image type
    img = image.load_img(img_path, target_size=(IMG_HEIGHT, IMG_HEIGHT))
    # convert PIL.Image.Image type to 3D tensor with shape (IMG_HEIGHT, IMG_HEIGHT, 3)
    x = image.img_to_array(img)
    # convert 3D tensor to 4D tensor with shape (1, IMG_HEIGHT, IMG_HEIGHT, 3) and return 4D tensor
    return np.expand_dims(x, axis=0)

def paths_to_tensor(img_paths):
    list_of_tensors = [path_to_tensor(img_path) for img_path in img_paths] #can use tqdm(img_paths) for data
    return np.vstack(list_of_tensors)enter code here

Run Code Online (Sandbox Code Playgroud)

数据库很大（不适合内存），必须创建自己的生成器才能提供从磁盘读取和扩充的功能。（我知道Keras具有.flow_from_directory（）-但我的数据不是以这种方式结构化的-它只是将100k图像与100k元数据文件混合在一起的转储）。我可能应该创建一个脚本来更好地构建它们，而不是创建自己的生成器，但是问题可能出在其他地方。

下面的生成器版本暂时不做任何扩充-只是重新缩放：

def generate_batches_from_train_folder(images_to_read, labels, …

Run Code Online (Sandbox Code Playgroud)

python conv-neural-network keras tensorflow resnet

mor*_*nor

2019 02-01

6
推荐指数

2
解决办法

3611
查看次数

PySpark - 根据另一列中引用的列名称创建列

我对 Spark 很陌生，无法让它工作...希望有一种简单的方法可以做到这一点...我想要做的最好由下表描述：（我需要获得“必填”栏）

    colA    colB    colC    ref     required
1   a1        b1    c1      colA     a1
2   a2        b2    c2      colA     a2
3   a3        b3    c3      colB     b3
4   a4        b4    c4      colB     b4
5   a5        b5    c5      colC     c5
6   a6        b6    c6      colC     c6

Run Code Online (Sandbox Code Playgroud)

上面只是一个例子 - 在真实的例子中我有 >50 列，所以做条件是行不通的......

我知道这可以在 pandas 中轻松完成，使用以下方法：

df['required'] = df.apply(lambda x: x.loc[x.ref], axis=1)

Run Code Online (Sandbox Code Playgroud)

或者

df['required'] = df.lookup(df.index, df.ref)

Run Code Online (Sandbox Code Playgroud)

有什么建议如何在 PySpark 中执行此操作吗？

python apache-spark-sql pyspark

mor*_*nor

2018 06-19

3
推荐指数

1
解决办法

2473
查看次数

标签统计

python ×2

apache-spark-sql ×1

conv-neural-network ×1

keras ×1

pyspark ×1

resnet ×1

tensorflow ×1

resnet50迁移学习期间的大量过拟合

PySpark - 根据另一列中引用的列名称创建列

标签 统计

小编mor_nor的帖子

标签统计