聚类方法会解决这个嘈杂的匹配问题吗?
Will a clustering method solve this noisy matching problem?
假设有四个数据列表,每个数据点的维度是三个。每个列表都是从不同的方法生成的。理想情况下,每个列表中只有一个数据点与另一个数据点等效(假设为红色数据点)。我们称之为解,其他的都是伪解。因此,很容易找到真正的解决方案。我们甚至不需要全部数据,只需要两个数据列表。通过比较两个列表中两个数据点的每种可能组合,可以轻松找到解决方案。
不幸的是,所有数据都包含现实世界中的噪音。真正的解决方案在不同的列表中是不平等的。有时,真正的解决方案会从其列表中丢失。更糟糕的是,存在两个非常接近的伪解,这使得寻找最接近的数据点变得毫无用处。
如何在现实世界中找到真正的解决方案?我可以想象,如果两个数据点最接近但其他三个数据点不那么接近。最后三个被选中。原因可能是他们的邻居数量更多。但是,应该将两个数据点视为邻居的距离有多近?
聚类方法能解决这个嘈杂的匹配问题吗?
没有
聚类需要您已经解决了所有相似性匹配问题。没有可靠的相似性,聚类将无法产生良好的结果。它不是让你所有问题都消失的神奇成分。
假设有四个数据列表,每个数据点的维度是三个。每个列表都是从不同的方法生成的。理想情况下,每个列表中只有一个数据点与另一个数据点等效(假设为红色数据点)。我们称之为解,其他的都是伪解。因此,很容易找到真正的解决方案。我们甚至不需要全部数据,只需要两个数据列表。通过比较两个列表中两个数据点的每种可能组合,可以轻松找到解决方案。
不幸的是,所有数据都包含现实世界中的噪音。真正的解决方案在不同的列表中是不平等的。有时,真正的解决方案会从其列表中丢失。更糟糕的是,存在两个非常接近的伪解,这使得寻找最接近的数据点变得毫无用处。
如何在现实世界中找到真正的解决方案?我可以想象,如果两个数据点最接近但其他三个数据点不那么接近。最后三个被选中。原因可能是他们的邻居数量更多。但是,应该将两个数据点视为邻居的距离有多近?
聚类方法能解决这个嘈杂的匹配问题吗?
没有
聚类需要您已经解决了所有相似性匹配问题。没有可靠的相似性,聚类将无法产生良好的结果。它不是让你所有问题都消失的神奇成分。