Shi*_*iro 5 image-recognition computer-vision image-segmentation deep-learning
我正在阅读 Facebook Research 的论文https://research.fb.com/wp-content/uploads/2017/08/maskrcnn.pdf。
Mask RCNN 基于检测器 Faster RCNN,但进行了一些改进,例如 FPN(特征金字塔网络)、ROI 对齐,这似乎比 ROI 池化更准确。但是,我不理解关于 FPN 和 Mask RCNN 中的 mask 的架构。事实上,FPN 允许获取不同尺度的特征图,但看看论文上的图像,我不明白他们是否只使用了 FPN 上的最后一个特征图。
所以,问题是:我们是否只使用 RPN 的最后一个特征图,然后使用一些卷积层来预测掩模(用于分割),或者我们还使用 RPN 的中间层?
mask R-CNN 中 mask 分支中的 FCN 使用 FPN 生成的所有特征图。
这是Mask R-CNN 的一种此类实现。这是代码片段:
# Attach 3x3 conv to all P layers to get the final feature maps.
P2 = KL.Conv2D(256, (3, 3), padding="SAME", name="fpn_p2")(P2)
P3 = KL.Conv2D(256, (3, 3), padding="SAME", name="fpn_p3")(P3)
P4 = KL.Conv2D(256, (3, 3), padding="SAME", name="fpn_p4")(P4)
P5 = KL.Conv2D(256, (3, 3), padding="SAME", name="fpn_p5")(P5)
# P6 is used for the 5th anchor scale in RPN. Generated by
# subsampling from P5 with stride of 2.
P6 = KL.MaxPooling2D(pool_size=(1, 1), strides=2, name="fpn_p6")(P5)
# Note that P6 is used in RPN, but not in the classifier heads.
rpn_feature_maps = [P2, P3, P4, P5, P6]
mrcnn_feature_maps = [P2, P3, P4, P5] <--------------
Run Code Online (Sandbox Code Playgroud)
这是作者使用了FPN的特征图的行。
| 归档时间: |
|
| 查看次数: |
2983 次 |
| 最近记录: |