class 从类似于另一个较小数据集的数据集中验证实例的算法,其中这个较小的数据集表示单个 class
Algorithm to classify instances from a dataset similar to another smaller dataset, where this smaller dataset represents a single class
我有一个表示二进制实例的数据集 class。这里的转折点是,只有来自正面 class 的实例,而我有 none 的负面实例。或者更确切地说,我想从负面中提取更接近正面的那些。
为了更具体一点,假设我们有从我们商店购物并当时或稍后索要会员卡的人的数据意志。除了隐私问题(这只是一个例子)我们有不同的属性,如年龄、邮政编码等。
另一组客户,以我们为例,是未申请该卡的客户。
我们想要的是在第一组中找到与申请会员卡的人最相似的子集,以便我们可以向他们发送申请会员计划的报价。
这不完全是一个 class 化问题,因为我们正在尝试从 "negatives" 组中获取实例。
这不完全是聚类,它通常是无监督的,因为我们已经知道一个聚类(会员卡客户)。
我考虑过使用 kNN。但我真的不知道我在这里有什么选择。
我还想知道,如果可能的话,如何使用 weka 或其他 Java 库实现这一点,以及我是否应该规范化所有属性。
您可以使用异常检测算法。这些算法会告诉您您的新客户是否属于获得会员卡的客户群(在这种情况下他们将是异常)。
有两个基本想法(来自我在下面链接的文章):
您将正标记数据(有卡片的客户)的特征向量转换为维度较低的向量space(例如通过使用主成分分析)。然后,您可以计算转换后数据的概率分布,并找出新客户是否属于同一统计分布。您还可以计算新客户端与转换后数据质心的距离,并使用分布的标准差来确定它是否仍然 足够接近.
机器学习方法:您使用卡片数据在客户端上训练auto-encoder网络。 auto-encoder 的架构存在瓶颈。它将输入数据压缩为具有较低维数的新特征向量,然后尝试从该压缩向量重建输入数据。如果训练正确完成,与 clients with card 数据集相似的输入数据的重建误差应该小于不相似的输入数据(希望这些客户做不想要卡片)。
这两种方法都需要先标准化属性。
尝试 one-class 支持向量机。
这种方法尝试对边界进行建模,并且会给你一个关于一个点是否应该在 class 中的二元决定。它可以看作是一个简单的密度估计。主要的好处是支持向量会比训练数据小很多。
或者简单地使用 nearest-neighbor 距离对用户进行排名。
我有一个表示二进制实例的数据集 class。这里的转折点是,只有来自正面 class 的实例,而我有 none 的负面实例。或者更确切地说,我想从负面中提取更接近正面的那些。
为了更具体一点,假设我们有从我们商店购物并当时或稍后索要会员卡的人的数据意志。除了隐私问题(这只是一个例子)我们有不同的属性,如年龄、邮政编码等。
另一组客户,以我们为例,是未申请该卡的客户。
我们想要的是在第一组中找到与申请会员卡的人最相似的子集,以便我们可以向他们发送申请会员计划的报价。
这不完全是一个 class 化问题,因为我们正在尝试从 "negatives" 组中获取实例。
这不完全是聚类,它通常是无监督的,因为我们已经知道一个聚类(会员卡客户)。
我考虑过使用 kNN。但我真的不知道我在这里有什么选择。
我还想知道,如果可能的话,如何使用 weka 或其他 Java 库实现这一点,以及我是否应该规范化所有属性。
您可以使用异常检测算法。这些算法会告诉您您的新客户是否属于获得会员卡的客户群(在这种情况下他们将是异常)。
有两个基本想法(来自我在下面链接的文章):
您将正标记数据(有卡片的客户)的特征向量转换为维度较低的向量space(例如通过使用主成分分析)。然后,您可以计算转换后数据的概率分布,并找出新客户是否属于同一统计分布。您还可以计算新客户端与转换后数据质心的距离,并使用分布的标准差来确定它是否仍然 足够接近.
机器学习方法:您使用卡片数据在客户端上训练auto-encoder网络。 auto-encoder 的架构存在瓶颈。它将输入数据压缩为具有较低维数的新特征向量,然后尝试从该压缩向量重建输入数据。如果训练正确完成,与 clients with card 数据集相似的输入数据的重建误差应该小于不相似的输入数据(希望这些客户做不想要卡片)。
这两种方法都需要先标准化属性。
尝试 one-class 支持向量机。
这种方法尝试对边界进行建模,并且会给你一个关于一个点是否应该在 class 中的二元决定。它可以看作是一个简单的密度估计。主要的好处是支持向量会比训练数据小很多。
或者简单地使用 nearest-neighbor 距离对用户进行排名。