聚类方法会解决这个嘈杂的匹配问题吗？

Will a clustering method solve this noisy matching problem?

cluster-analysis

假设有四个数据列表，每个数据点的维度是三个。每个列表都是从不同的方法生成的。理想情况下，每个列表中只有一个数据点与另一个数据点等效（假设为红色数据点）。我们称之为解，其他的都是伪解。因此，很容易找到真正的解决方案。我们甚至不需要全部数据，只需要两个数据列表。通过比较两个列表中两个数据点的每种可能组合，可以轻松找到解决方案。

不幸的是，所有数据都包含现实世界中的噪音。真正的解决方案在不同的列表中是不平等的。有时，真正的解决方案会从其列表中丢失。更糟糕的是，存在两个非常接近的伪解，这使得寻找最接近的数据点变得毫无用处。

如何在现实世界中找到真正的解决方案？我可以想象，如果两个数据点最接近但其他三个数据点不那么接近。最后三个被选中。原因可能是他们的邻居数量更多。但是，应该将两个数据点视为邻居的距离有多近？

聚类方法能解决这个嘈杂的匹配问题吗？

没有

聚类需要您已经解决了所有相似性匹配问题。没有可靠的相似性，聚类将无法产生良好的结果。它不是让你所有问题都消失的神奇成分。

聚类方法会解决这个嘈杂的匹配问题吗？

Will a clustering method solve this noisy matching problem?

cluster-analysis