在 MNIST 上训练,检测数字序列?

Training on MNIST, detecting sequences of numbers?

在 MNIST 集上训练模型后,我现在如何将图像分类为具有两位数?更一般地说,我如何训练模型来检测图像上任意数量的数字?

有一个名为"object detection"的热门领域,它试图做你想做的事。通常,您可以从任何图像甚至视频中检测到任何东西(数字、人、汽车等)。

最先进的技术大致分为两类:

  1. Faster-RCNN,它首先为您感兴趣的对象提出很多候选 windows,然后检测这些 windows 中的实际内容。
  2. SSD,它只扫描一次图像并检测物体,与 Faster-RCNN 相比速度更快但不那么可靠。

比较知名的实时物体检测方法是YOLO(You Only Look Once),属于SSD范畴,有一个很牛逼的实时demohere,给大家介绍一下物体检测感。搜索这些方法的名称,您会发现大量满足您需求的示例代码。

如果您只是寻找数字检测,还可以查看围绕斯坦福 House Number Dataset 的工作。但是,请注意,这些作品通常来自五年或更早以前,并不一定能胜过 Faster-RCNN 和 SSD 等一般方法。