使用文本数据确定规范类

Determining canonical classes with text data

我有一个独特的问题，我不知道有什么算法可以帮助我。也许这里有人会。

我有一个从许多不同来源（团队）编译的数据集。特别是一个字段称为 "type"。以下是类型的一些示例值：

aple, apples, appls, ornge, fruits, orange, orange z, pear, cauliflower, colifower, brocli, brocoli, leeks, veg, vegetables.

我希望能够做的是将它们组合在一起，例如水果、蔬菜table等

换句话说，我有一个父级变量（在此示例中为水果或蔬菜tables）的各种排列的多种拼写，我需要尽可能地对它们进行分组。

数据的唯一其他潜在相关特征是输入数据的团队，假设每个团队输入数据的方式具有一定的一致性。

所以，我有几百万条多拼写和短拼写（例如 apple、appls）的记录，我想以某种方式将它们组合在一起。在这个例子中，fruits and vegetables.

聚类将具有挑战性，因为每个条目通常是 1 个或两个单词，这使得计算术语之间的距离变得棘手。

如果没有创建由人工创建的大规模查找 table（不太可能有数百万行），我有什么方法可以解决这个问题吗？

您需要先解决拼写问题，除非您有 Google 比例数据，可以让您通过 Google 比例统计来学习修复拼写问题。

那你还是会遇到"Apple"可能是水果也可能是电脑的问题。 Apple 和 "Granny Smith" 将完全不同。在第二阶段，您最好猜测是在海量数据上训练的 word2vec。然后你会得到高维词向量，并且最终可以尝试解决聚类挑战，如果你能取得不错的结果的话。祝你好运。