我应该使用什么方法将单词转换为机器学习应用程序的特征？

What method should I use to convert words into features for Machine Learning applications?

我正计划构建一个性别分类器。我知道两个流行的模型是 tf-idf 和 word2vec。 tf-idf关注的是一个词在文档中的重要程度和文档的相似度，而word2vec更关注的是词之间的关系以及它们之间的相似度。

但是 none 的主题似乎非常适合构建用于性别分类的矢量特征。是否有任何其他替代矢量化模型可能适合此任务？

是的，w2v还有另一种选择：GloVe。

GloVe 代表全局向量嵌入。作为以前使用过此技术并取得良好效果的人，我会推荐 GloVe。

GloVe 不仅通过查看局部 windows 还考虑了更大的宽度（30+ 大小），从而优化地训练神经词嵌入，从而将更深层次的语义嵌入到嵌入中。

使用 glove，可以很容易地建立关系模型，例如：X[man] - X[woman] = X[king] - X[queen]，其中这些都是向量。

致谢：GloVe GitHub 页面（链接如下）。

您可以训练自己的 GloVe 嵌入，也可以使用他们提供的再训练模型。即使对于特定领域，通用模型似乎也能很好地工作，尽管如果您自己训练模型，您会从模型中得到更多。请查看 GitHub 页面以获取有关如何训练您自己的模型的说明。非常简单。

补充阅读：