如何为深度学习目的清理大型图像数据集?

How to clean a large image dataset for deep learning purposes?

我有一个包含 477 classes(大约 500,000 张图像)的大型图像数据集。每个 class 包含一些不相关的图像,因此当它在模型上训练时,模型精度是不可接受的。关于 classes 的数量,在人工帮助下手动清理数据集需要花费很多时间。有什么办法可以自动删除这些图像吗? (如机器学习方法或算法)

一种可能的方法是使用 classifier 从数据集中删除不需要的图像,但这种方法仅适用于大型数据集,并且不如正常方法(手动清理)可靠。例如,可以训练 SVM classifier 从每个 class 中提取图像。测试此方法后将添加更多详细信息。

我认为目前清理图像数据集的最佳(最可靠)方法是手动。可能有一些技术可以应用。目前,Azure 和 Amazon ML 等服务有一些清理数据的方法,但是,我不知道他们是否将其应用于图像 (https://docs.microsoft.com/en-us/azure/machine-learning/team-data-science-process/prepare-data)。可以肯定的是,有些公司拥有完善的方法来做到这一点。 也许你可以从这篇论文中得到启发:https://stefan.winklerbros.net/Publications/icip2014a.pdf