我应该对频率数据使用哪种聚类算法？

Question

我正在尝试分析如下所示的旅游数据：

@DATA
2013-1-01,01,1,0,1,3,3,329.2172000000005
2013-1-01,01,1,0,1,3,4,1399.7826299999915
2013-1-01,01,1,1,2,3,2,10.50964

其中最后一个属性是满足所有其他条件（酒店、具体城市、具体住宿天数...）的旅客人数

我正在尝试创建游客集群来细分数据并获得有意义的见解，我对机器学习有点陌生，所以我在这里有点挣扎。经过一些研究，因为我不知道应该将数据分成多少个集群，我发现一种好方法是使用自组织映射来获取集群的数量，然后使用 K-means 或 EV 之类的东西。所以我正在使用 WEKA 并将 SOM 应用于数据，但看起来它形成了按所有属性（包括最后一个）分组的集群，而不是将其用于加权。

我认为一个可能的解决方案是为频率属性中的每个单元创建一行数据，但这会使文件太大。有什么想法吗？

Answer 1

大多数实现不支持加权。这样做是可行的，但您需要更改代码。

由于你的最后一列不是整数，你不能只重复行。

将每一行视为一个簇有什么问题？

但是你的其他属性好像是某种类别。这样的数据往往非常严重地聚集在一起。可以有1处不同，2处不同，全都不同。这对于有意义的聚类来说太粗糙了。

您还有时间戳，所以您可能对随时间变化感兴趣？

我应该对频率数据使用哪种聚类算法？

Which clustering algorithm should I use for frequency data?

algorithm

cluster-analysis

machine-learning

weka