使用地理位置数据对客户行为进行聚类分析
Cluster Analysis of customer behavior with geolocation data
我想根据客户的购买行为(包括他们的购物地点(纬度和经度))对客户进行聚类。我知道 HDBSCAN 适用于 lat/lon 数据。但是,是否可以包括其他类型的属性,如数量、商品平均价格等?我不知道其他算法是否适用于这种 "mixed" 数据。
大多数聚类算法都是为任意数量的特征定义的,这包括 HDBSCAN。只有您会知道它与您的数据集配合得有多好!
几个明显的问题:
lat/long 定义一个球坐标系,因此如果您希望客户遍及全球,您可能需要做一些特别的事情。例如+/-180 度经度应该是 "same",因此您可能需要某种方式将它们编码为零距离。
归一化可能也很重要,即特征通常应具有相同的均值和方差(均值=0 和标准差=1 很常见)。此外,确保事物来自适当的分布可能很重要,例如可能在标准化之前取价格的对数和交易量的平方根。
HDBSCAN 可让您使用 distance matrices directly 这可能有助于第一项
我想根据客户的购买行为(包括他们的购物地点(纬度和经度))对客户进行聚类。我知道 HDBSCAN 适用于 lat/lon 数据。但是,是否可以包括其他类型的属性,如数量、商品平均价格等?我不知道其他算法是否适用于这种 "mixed" 数据。
大多数聚类算法都是为任意数量的特征定义的,这包括 HDBSCAN。只有您会知道它与您的数据集配合得有多好!
几个明显的问题:
lat/long 定义一个球坐标系,因此如果您希望客户遍及全球,您可能需要做一些特别的事情。例如+/-180 度经度应该是 "same",因此您可能需要某种方式将它们编码为零距离。
归一化可能也很重要,即特征通常应具有相同的均值和方差(均值=0 和标准差=1 很常见)。此外,确保事物来自适当的分布可能很重要,例如可能在标准化之前取价格的对数和交易量的平方根。
HDBSCAN 可让您使用 distance matrices directly 这可能有助于第一项