机器学习和不同大小的图像
Machine learning and images of different size
假设我有一个机器学习系统,它学会了识别图像是否包含物体(例如汽车)。
我的问题如下,当系统接收到不同尺寸的图片时怎么办?例如,训练集可能由 1000x700 像素的图像组成,但现实世界并不是那么统一,可以期望图像为 700x1000、700x400 ...
第一个冲动是将图像调整为与训练集大小相同,但这感觉很脏而且没有多大用处。
我是不是漏掉了什么明显的东西?此外,即使对于训练集,我假设假设每张图像都具有固定大小(再次假设 1000x700 像素)并没有真正意义。
此外,如果使用滑动 window 技术,可能会出现同样的问题,因为确定什么是正确的 window 大小并不容易。
我想这一定是一个比较普遍的问题,所以一定有一套共同的解决方案,有什么想法吗?
是的。常见的解决方案是
- 调整大小和裁剪 -- 缩小或放大图像,直到两个尺寸至少达到所需尺寸。然后将照片裁剪成常用尺寸。
- 裁剪 -- 提取常用大小的裁剪,必要时进行填充。
现在...裁剪通常是通过一系列裁剪照片完成的:所有四个角和中心。在上面的(1)中,只有三张图片,而不是五张。
假设我有一个机器学习系统,它学会了识别图像是否包含物体(例如汽车)。
我的问题如下,当系统接收到不同尺寸的图片时怎么办?例如,训练集可能由 1000x700 像素的图像组成,但现实世界并不是那么统一,可以期望图像为 700x1000、700x400 ...
第一个冲动是将图像调整为与训练集大小相同,但这感觉很脏而且没有多大用处。
我是不是漏掉了什么明显的东西?此外,即使对于训练集,我假设假设每张图像都具有固定大小(再次假设 1000x700 像素)并没有真正意义。
此外,如果使用滑动 window 技术,可能会出现同样的问题,因为确定什么是正确的 window 大小并不容易。
我想这一定是一个比较普遍的问题,所以一定有一套共同的解决方案,有什么想法吗?
是的。常见的解决方案是
- 调整大小和裁剪 -- 缩小或放大图像,直到两个尺寸至少达到所需尺寸。然后将照片裁剪成常用尺寸。
- 裁剪 -- 提取常用大小的裁剪,必要时进行填充。
现在...裁剪通常是通过一系列裁剪照片完成的:所有四个角和中心。在上面的(1)中,只有三张图片,而不是五张。