在这种情况下,哪个更好:分类还是聚类?
In this case, what's better: classification or clustering?
我从 FB、Twitter、Linkedin 等不同来源收集数据,然后将它们制成结构化格式。现在的结果是:我有一个包含 10000 行(10000 人)的 csv 文件,相关数据是关于他们的姓名、年龄、兴趣和购买习惯。
我真的卡在了这一步:分类或聚类。对于分类,我并没有真正预定义 类 或供我的用户分类的模型。
对于聚类:我开始计算相似度和KMeans,但仍然得不到我想要的结果。在继续进行协同过滤的下一步之前,我如何决定选择什么?
首先,你要明白clustering
是一个pre-processing
activity/task。聚类的思想是识别具有相似属性的对象并将它们分组。聚类过程可以用cattle-herding来理解。其中骑师将散牛(读取数据点)分组。
注意:如果您正在查看分区聚类算法系列,则包括 K-means
、k-modes
、k-prototype
等。算法 k-means
仅适用于数值数据. K-modes
仅适用于分类数据,k-prototype
适用于数值数据和分类数据。
问:数据是否经过预处理?如果答案是否定的,那么您可以尝试以下步骤;
数据(列值)是所有分类(=文本)格式还是数字或混合格式?
一个。如果所有分类然后离散化或 bin 或间隔缩放它们。
b。如果混合,则仅离散化或分箱或间隔缩放分类值
c。对数值数据和分类数据执行缺失值和离群值处理。这将有助于保持最大方差并降低维度。
d。将数值标准化为零的中位数。
现在应用合适的聚类算法(根据您的问题)来确定模式。一旦你找到了模式,你就可以给它们贴上标签。一旦识别出的模式被标记,此后或随后 class 化算法可以用于 classify
任何新的传入数据点到适当的 class。
我从 FB、Twitter、Linkedin 等不同来源收集数据,然后将它们制成结构化格式。现在的结果是:我有一个包含 10000 行(10000 人)的 csv 文件,相关数据是关于他们的姓名、年龄、兴趣和购买习惯。
我真的卡在了这一步:分类或聚类。对于分类,我并没有真正预定义 类 或供我的用户分类的模型。
对于聚类:我开始计算相似度和KMeans,但仍然得不到我想要的结果。在继续进行协同过滤的下一步之前,我如何决定选择什么?
首先,你要明白clustering
是一个pre-processing
activity/task。聚类的思想是识别具有相似属性的对象并将它们分组。聚类过程可以用cattle-herding来理解。其中骑师将散牛(读取数据点)分组。
注意:如果您正在查看分区聚类算法系列,则包括 K-means
、k-modes
、k-prototype
等。算法 k-means
仅适用于数值数据. K-modes
仅适用于分类数据,k-prototype
适用于数值数据和分类数据。
问:数据是否经过预处理?如果答案是否定的,那么您可以尝试以下步骤;
数据(列值)是所有分类(=文本)格式还是数字或混合格式?
一个。如果所有分类然后离散化或 bin 或间隔缩放它们。
b。如果混合,则仅离散化或分箱或间隔缩放分类值
c。对数值数据和分类数据执行缺失值和离群值处理。这将有助于保持最大方差并降低维度。
d。将数值标准化为零的中位数。
现在应用合适的聚类算法(根据您的问题)来确定模式。一旦你找到了模式,你就可以给它们贴上标签。一旦识别出的模式被标记,此后或随后 class 化算法可以用于
classify
任何新的传入数据点到适当的 class。