Mahout 0.9 中的 ClusterDump

ClusterDump in Mahout 0.9

我在进行文本聚类时有一个与 Mahout 0.9 中的聚类转储相关的问题 -

https://mahout.apache.org/users/clustering/clusteringyourdata.html

cluster dump的一种情况是输出top k kerms，为此你没有指定参数p（pointsDir）。

集群转储的第二种情况是您指定参数 p (pointsDir) 并获得与集群关联的点。

两个输出都具有完全相同的聚类 ID，但案例 1 中显示的记录数 - 显示热门术语的地方与案例 2 中显示的记录数不同 - 你获得与聚类相关联的点的地方。

为什么会这样？我的意思是看到与特定集群关联的不同点数并且不确定哪个是正确的很奇怪？

有人见过这种情况吗？

提前致谢！

终于在网上搜索了很多关于这个问题的资料后，我找到了一个 link 讨论这个问题 -

http://qnalist.com/questions/4874723/mahout-clusterdump-output

尽管引起我注意的是下面的解释 -

我认为报告的向量数量 (n=) 之间存在差异聚类和 -cl 实际聚类的点数选项正常。 * 在最后一次迭代中，点被分配给（观察者）（分类为）基于距离度量和从上一次迭代计算的聚类中心。 (n=) 值记录点数 "observed by" 集群中的那个迭代。 * 最后一次迭代后，计算一个新的聚类中心每个集群。这将中心移动了一定量，小于收敛阈值，但它移动。 * 在随后的分类 (-cl) 步骤中，这些新中心用于对输出点进行分类。这将不可避免地导致一些点被分配给（观察到）（分类为）a 不同的集群等输出 clusteredPoints 将反映这个最后的任务。在小的、人为的例子中，聚类可能会更稳定在最终迭代和聚类点输出之间。我认为两者之间的差异簇报告的向量数 (n=) 和实际上由 -cl 选项聚类的点是正常的。在最后一次迭代中，点被分配给（观察者）（分类为）基于距离度量的每个集群和从上一次迭代计算的聚类中心。 (n=)值记录了点数"observed by" 在该迭代中聚类。最后一次迭代后，一个新的聚类中心是为每个集群计算。这将中心移动了一些量，小于收敛阈值，但它移动。在随后的分类 (-cl) 步骤中，这些新的中心用于对输出点进行分类。这会不可避免地导致一些点被分配给（被观察到）（分类为）不同的集群等输出 clusteredPoints 将反映此最终分配。在小的、人为的例子中，聚类可能是在最终迭代和输出之间更稳定聚类点。

Mahout 0.9 中的 ClusterDump

ClusterDump in Mahout 0.9

hadoop

mahout