具有异构变量的客户集的聚类
Clustering of set of customers having heterogeneous variables
我有一组具有连续、分类、二元和有序不同属性的客户。
知道我们不能对这些不同类型的属性应用相同的距离度量,我如何对它们进行聚类?
提前谢谢你
如前所述,daisy 包是一个根据数据自动选择最佳距离度量的选项 type.But 我建议采用以下方法并请专家参与。
而不是自动选择识别和删除一些相关变量,例如(一些示例)
皮尔逊相关系数:对于连续变量
卡方检验:用于分类变量
分类与数值:方差分析检验等的一种方法
获取有用变量的子集,考虑对分类变量进行单热编码,并可能将序数转换为连续(或分类和单热编码)。测试使用不同的距离度量,如欧几里德、曼哈顿等来评估结果。通过这种方式,您将更清楚地了解整个聚类过程。
我有一组具有连续、分类、二元和有序不同属性的客户。 知道我们不能对这些不同类型的属性应用相同的距离度量,我如何对它们进行聚类? 提前谢谢你
如前所述,daisy 包是一个根据数据自动选择最佳距离度量的选项 type.But 我建议采用以下方法并请专家参与。
而不是自动选择识别和删除一些相关变量,例如(一些示例)
皮尔逊相关系数:对于连续变量
卡方检验:用于分类变量
分类与数值:方差分析检验等的一种方法
获取有用变量的子集,考虑对分类变量进行单热编码,并可能将序数转换为连续(或分类和单热编码)。测试使用不同的距离度量,如欧几里德、曼哈顿等来评估结果。通过这种方式,您将更清楚地了解整个聚类过程。