使用文本数据确定规范 类
Determining canonical classes with text data
我有一个独特的问题,我不知道有什么算法可以帮助我。也许这里有人会。
我有一个从许多不同来源(团队)编译的数据集。特别是一个字段称为 "type"。以下是类型的一些示例值:
aple, apples, appls, ornge, fruits, orange, orange z, pear,
cauliflower, colifower, brocli, brocoli, leeks, veg, vegetables.
我希望能够做的是将它们组合在一起,例如水果、蔬菜table等
换句话说,我有一个父级变量(在此示例中为水果或蔬菜tables)的各种排列的多种拼写,我需要尽可能地对它们进行分组。
数据的唯一其他潜在相关特征是输入数据的团队,假设每个团队输入数据的方式具有一定的一致性。
所以,我有几百万条多拼写和短拼写(例如 apple、appls)的记录,我想以某种方式将它们组合在一起。在这个例子中,fruits and vegetables.
聚类将具有挑战性,因为每个条目通常是 1 个或两个单词,这使得计算术语之间的距离变得棘手。
如果没有创建由人工创建的大规模查找 table(不太可能有数百万行),我有什么方法可以解决这个问题吗?
您需要先解决拼写问题,除非您有 Google 比例数据,可以让您通过 Google 比例统计来学习修复拼写问题。
那你还是会遇到"Apple"可能是水果也可能是电脑的问题。 Apple 和 "Granny Smith" 将完全不同。在第二阶段,您最好猜测是在 海量 数据上训练的 word2vec。然后你会得到高维词向量,并且最终可以尝试解决聚类挑战,如果你能取得不错的结果的话。祝你好运。
我有一个独特的问题,我不知道有什么算法可以帮助我。也许这里有人会。
我有一个从许多不同来源(团队)编译的数据集。特别是一个字段称为 "type"。以下是类型的一些示例值:
aple, apples, appls, ornge, fruits, orange, orange z, pear, cauliflower, colifower, brocli, brocoli, leeks, veg, vegetables.
我希望能够做的是将它们组合在一起,例如水果、蔬菜table等
换句话说,我有一个父级变量(在此示例中为水果或蔬菜tables)的各种排列的多种拼写,我需要尽可能地对它们进行分组。
数据的唯一其他潜在相关特征是输入数据的团队,假设每个团队输入数据的方式具有一定的一致性。
所以,我有几百万条多拼写和短拼写(例如 apple、appls)的记录,我想以某种方式将它们组合在一起。在这个例子中,fruits and vegetables.
聚类将具有挑战性,因为每个条目通常是 1 个或两个单词,这使得计算术语之间的距离变得棘手。
如果没有创建由人工创建的大规模查找 table(不太可能有数百万行),我有什么方法可以解决这个问题吗?
您需要先解决拼写问题,除非您有 Google 比例数据,可以让您通过 Google 比例统计来学习修复拼写问题。
那你还是会遇到"Apple"可能是水果也可能是电脑的问题。 Apple 和 "Granny Smith" 将完全不同。在第二阶段,您最好猜测是在 海量 数据上训练的 word2vec。然后你会得到高维词向量,并且最终可以尝试解决聚类挑战,如果你能取得不错的结果的话。祝你好运。