Faster RCNN:如何转换坐标

Faster RCNN: how to translate coordinates

我正在尝试理解 Faster R-CNN 算法并将其用于我自己的数据。

我的问题是关于 ROI 坐标:我们拥有的标签以及我们最终想要的是输入图像中的 ROI 坐标。但是,如果我理解正确的话,锚框在卷积特征图中给出,然后 ROI 回归给出相对于锚框的 ROI 坐标(很容易转换为 conv 特征图坐标中的坐标),然后 Fast-RCNN 部分使用卷积特征图中的坐标进行 ROI 池化,其自身(分类和)回归边界框坐标。

考虑到在原始图像和卷积特征之间,发生了一些卷积和池化,可能有步幅>1(子采样),我们如何将原始图像中的坐标与特征中的坐标相关联space(两种方式)?

我们应该如何给出锚框大小:相对于输入图像大小,还是相对于卷积特征图?

Fast-RCNN回归的bounding box是怎么表达的? (我猜想:相对于ROI proposal,类似于proposal的encoding相对于anchor box;但我不确定)

看起来它实际上是一个实现问题,方法本身并没有回答这个问题。

不过,Tensorflow Object Detection API 使用的一个好方法是始终给出相对于图层输入大小的坐标和 ROI 大小。也就是说,所有坐标和大小都将是 01 之间的实数。对于锚框也是如此。

这很好地处理了下采样问题,并允许轻松计算 ROI 坐标。

当您不在图层上使用激活函数时,结果将是原始数字。这些原始数字基本上直接与​​坐标(标签)相关联。

使用 softmax 或 relu 等激活函数将给出一个概率值,从而导致分类解决方案,而不是回归。