将单词分类为 Python
Sorting words into categories in Python
我有大约 3,000 个单词,我想将它们分成大约 20-50 个不同的类别。我的话是您可能会在公司名称中找到的典型短语。例如 "Face"、"Book"、"Sales"、"Force"。
到目前为止,我一直在查看的库是 pandas 和 scikit-learn。我想知道是否有适合此目的的机器学习或深度学习算法?
我一直在寻找的主题是分类:识别对象属于哪个类别,以及降维:减少要考虑的变量的随机数。
当我在 Google 上搜索将单词归类时,它会显示 "things you do with a pencil" - 画画等儿童拼图。或者 "parts of a house" - 院子,房间。
要进行深度学习,您必须开发一个大型数据集,很可能是手动开发。事实上,最大的自然语言处理数据集是手动创建的。
但是,即使您能够找到模型可以学习的数据集。那么诸如梯度提升树之类的模型将是其中一个非常适合像这样的多 class class 化的模型。 class用于此的 ic 库是 xgboost。
我有大约 3,000 个单词,我想将它们分成大约 20-50 个不同的类别。我的话是您可能会在公司名称中找到的典型短语。例如 "Face"、"Book"、"Sales"、"Force"。
到目前为止,我一直在查看的库是 pandas 和 scikit-learn。我想知道是否有适合此目的的机器学习或深度学习算法?
我一直在寻找的主题是分类:识别对象属于哪个类别,以及降维:减少要考虑的变量的随机数。
当我在 Google 上搜索将单词归类时,它会显示 "things you do with a pencil" - 画画等儿童拼图。或者 "parts of a house" - 院子,房间。
要进行深度学习,您必须开发一个大型数据集,很可能是手动开发。事实上,最大的自然语言处理数据集是手动创建的。 但是,即使您能够找到模型可以学习的数据集。那么诸如梯度提升树之类的模型将是其中一个非常适合像这样的多 class class 化的模型。 class用于此的 ic 库是 xgboost。