Faster RCNN：如何转换坐标

Faster RCNN: how to translate coordinates

我正在尝试理解 Faster R-CNN 算法并将其用于我自己的数据。

我的问题是关于 ROI 坐标：我们拥有的标签以及我们最终想要的是输入图像中的 ROI 坐标。但是，如果我理解正确的话，锚框在卷积特征图中给出，然后 ROI 回归给出相对于锚框的 ROI 坐标（很容易转换为 conv 特征图坐标中的坐标），然后 Fast-RCNN 部分使用卷积特征图中的坐标进行 ROI 池化，其自身（分类和）回归边界框坐标。

考虑到在原始图像和卷积特征之间，发生了一些卷积和池化，可能有步幅>1（子采样），我们如何将原始图像中的坐标与特征中的坐标相关联space（两种方式）？

我们应该如何给出锚框大小：相对于输入图像大小，还是相对于卷积特征图？

Fast-RCNN回归的bounding box是怎么表达的？（我猜想：相对于ROI proposal，类似于proposal的encoding相对于anchor box；但我不确定）

看起来它实际上是一个实现问题，方法本身并没有回答这个问题。

不过，Tensorflow Object Detection API 使用的一个好方法是始终给出相对于图层输入大小的坐标和 ROI 大小。也就是说，所有坐标和大小都将是 0 和 1 之间的实数。对于锚框也是如此。

这很好地处理了下采样问题，并允许轻松计算 ROI 坐标。

当您不在图层上使用激活函数时，结果将是原始数字。这些原始数字基本上直接与坐标（标签）相关联。

使用 softmax 或 relu 等激活函数将给出一个概率值，从而导致分类解决方案，而不是回归。

Faster RCNN：如何转换坐标

Faster RCNN: how to translate coordinates

machine-learning

computer-vision

deep-learning

tensorflow