动态张量对齐/裁剪

mel*_*r89 2 tensorflow

我在 TensorFlow 上实现了全卷积网络。它使用编码器-解码器结构。训练时,我总是使用相同的图像大小(224x224,使用随机裁剪)并且一切正常。

在干扰阶段,我想一次预测一张图像,因为我想使用完整图像(未裁剪)。例如,这样的图像有 size [406,256]。这是问题。在 Encoder-Decoder 架构中,我添加了两个 tesors (z = x + y)。训练时,两个张量的大小匹配。在预测我的单个图像时,大小不匹配(张量大小:[1,47,47,64]vs [1,46,46,64])。我认为这是由 Conv 和 Pool 层中的一些舍入造成的。

我应该改变我的架构以适用于我想要的任何图像尺寸?我应该更改舍入参数吗?或者添加张量的“裁剪”?

架构实现链接:https : //gist.github.com/melgor/0e43cadf742fe3336148ab64dd63138f (问题出现在第166行)

mel*_*r89 6

我找到了可变输入大小的解决方案:)

我们真正需要的是“裁剪层”,裁剪一个张量以匹配另一个张量。我在这里找到了非常相似的层:http ://tf-unet.readthedocs.io/en/latest/_modules/tf_unet/layers.html (crop_and_concat)。

我刚刚制作了“crop_and_add”,它正在工作:

def crop_and_add(x1,x2):
    x1_shape = tf.shape(x1)
    x2_shape = tf.shape(x2)
    # offsets for the top left corner of the crop
    offsets = [0, (x1_shape[1] - x2_shape[1]) // 2, (x1_shape[2] - x2_shape[2]) // 2, 0]
    size = [-1, x2_shape[1], x2_shape[2], -1]
    x1_crop = tf.slice(x1, offsets, size)
    return x1_crop + x2
Run Code Online (Sandbox Code Playgroud)

我将模型中的所有添加都替换为上层(因此合并编码器和解码器数据)。

此外,模型的输入需要定义为:

image = tf.placeholder(tf.float32, shape=[1, None, None, 3], name="input_image")
Run Code Online (Sandbox Code Playgroud)

所以我们知道我们将传递单个图像并且该图像有 3 个通道。但我们既不知道宽度也不知道高度。而且效果很好!(作为 AWS P2 在 K80 上为 40 FPS,图像大小为 224x{} - 图像的拍摄方有 224)

仅供参考,我也试图运行ENET(比 LinkNet 快 2 倍),但在 TensorFlow 中它更慢。我认为这是因为 PReLu(在 TF 上很慢)。它也不支持图像的任意大小,因为 UnPool 层需要通过整数列表(而不是占位符)来预定义输出大小。因此,在 TF 中的速度和性能的情况下,LinkNet 看起来更好。