我应该使用什么方法将单词转换为机器学习应用程序的特征?

What method should I use to convert words into features for Machine Learning applications?

我正计划构建一个性别分类器。我知道两个流行的模型是 tf-idf 和 word2vec。 tf-idf关注的是一个词在文档中的重要程度和文档的相似度,而word2vec更关注的是词之间的关系以及它们之间的相似度。

但是 none 的主题似乎非常适合构建用于性别分类的矢量特征。是否有任何其他替代矢量化模型可能适合此任务?

是的,w2v还有另一种选择:GloVe

GloVe 代表全局向量嵌入。 作为以前使用过此技术并取得良好效果的人,我会推荐 GloVe。

GloVe 不仅通过查看局部 windows 还考虑了更大的宽度(30+ 大小),从而优化地训练神经词嵌入,从而将更深层次的语义嵌入到嵌入中。

使用 glove,可以很容易地建立关系模型,例如:X[man] - X[woman] = X[king] - X[queen],其中这些都是向量。

致谢:GloVe GitHub 页面(链接如下)。

您可以训练自己的 GloVe 嵌入,也可以使用他们提供的再训练模型。即使对于特定领域,通用模型似乎也能很好地工作,尽管如果您自己训练模型,您会从模型中得到更多。请查看 GitHub 页面以获取有关如何训练您自己的模型的说明。非常简单。

补充阅读: