动态张量对齐/裁剪

Question

动态张量对齐/裁剪

我在 TensorFlow 上实现了全卷积网络。它使用编码器-解码器结构。训练时，我总是使用相同的图像大小（224x224，使用随机裁剪）并且一切正常。

在干扰阶段，我想一次预测一张图像，因为我想使用完整图像（未裁剪）。例如，这样的图像有 size [406,256]。这是问题。在 Encoder-Decoder 架构中，我添加了两个 tesors (z = x + y)。训练时，两个张量的大小匹配。在预测我的单个图像时，大小不匹配（张量大小：[1,47,47,64]vs [1,46,46,64]）。我认为这是由 Conv 和 Pool 层中的一些舍入造成的。

我应该改变我的架构以适用于我想要的任何图像尺寸？我应该更改舍入参数吗？或者添加张量的“裁剪”？

架构实现链接：https : //gist.github.com/melgor/0e43cadf742fe3336148ab64dd63138f （问题出现在第166行）

Answer 1

mel*_*r89 6

我找到了可变输入大小的解决方案:)

我们真正需要的是“裁剪层”，裁剪一个张量以匹配另一个张量。我在这里找到了非常相似的层：http ://tf-unet.readthedocs.io/en/latest/_modules/tf_unet/layers.html (crop_and_concat)。

我刚刚制作了“crop_and_add”，它正在工作：

def crop_and_add(x1,x2):
    x1_shape = tf.shape(x1)
    x2_shape = tf.shape(x2)
    # offsets for the top left corner of the crop
    offsets = [0, (x1_shape[1] - x2_shape[1]) // 2, (x1_shape[2] - x2_shape[2]) // 2, 0]
    size = [-1, x2_shape[1], x2_shape[2], -1]
    x1_crop = tf.slice(x1, offsets, size)
    return x1_crop + x2

Run Code Online (Sandbox Code Playgroud)

我将模型中的所有添加都替换为上层（因此合并编码器和解码器数据）。

此外，模型的输入需要定义为：

image = tf.placeholder(tf.float32, shape=[1, None, None, 3], name="input_image")

Run Code Online (Sandbox Code Playgroud)

所以我们知道我们将传递单个图像并且该图像有 3 个通道。但我们既不知道宽度也不知道高度。而且效果很好！（作为 AWS P2 在 K80 上为 40 FPS，图像大小为 224x{} - 图像的拍摄方有 224）

仅供参考，我也试图运行ENET（比 LinkNet 快 2 倍），但在 TensorFlow 中它更慢。我认为这是因为 PReLu（在 TF 上很慢）。它也不支持图像的任意大小，因为 UnPool 层需要通过整数列表（而不是占位符）来预定义输出大小。因此，在 TF 中的速度和性能的情况下，LinkNet 看起来更好。

归档时间：	8 年，5 月前
查看次数：	1329 次
最近记录：	8 年，5 月前