如何使用word2vec返回的词向量作为特征?
How do I use the word vector returned by word2vec as features?
我计划为此目的使用 Scikit Learn 的多层感知器分类器。
输出是该词的性别,应以单热编码表示,例如 [1,0,0] 表示男性,[0, 1, 0] 表示女性,[0, 0, 1] 表示女性。
现在输入之一是该词的词向量。这些向量中的每一个都有 20 个维度。
其他功能是它的词性标记和奇点 (0)/复数 (1) 状态。
我的问题是如何使用数组形式的词向量作为 MLPClassifier 中的特征?
您的 w2v 向量捕获了与单词相关的一些语义相似性。这个向量必须被视为一个整体——它本身就是一个特征。
神经网络的一个很好的特性是它们能够自行提取和学习模式。作为输入,您可以考虑将词向量与 vectorised/numerical 等效的 POS 标签连接起来,最后是奇点状态:
------------------- ---- -
\_________________/ \__/ | } ------ 25d vector input to the MLP (assuming your POS takes 4 spaces)
w2v vector POS state
只要您对训练、测试和未见过的数据遵循一致的方案,您的 MLP 就会在学习时使用整个输入自动从输入中提取特征。
我计划为此目的使用 Scikit Learn 的多层感知器分类器。
输出是该词的性别,应以单热编码表示,例如 [1,0,0] 表示男性,[0, 1, 0] 表示女性,[0, 0, 1] 表示女性。
现在输入之一是该词的词向量。这些向量中的每一个都有 20 个维度。
其他功能是它的词性标记和奇点 (0)/复数 (1) 状态。
我的问题是如何使用数组形式的词向量作为 MLPClassifier 中的特征?
您的 w2v 向量捕获了与单词相关的一些语义相似性。这个向量必须被视为一个整体——它本身就是一个特征。
神经网络的一个很好的特性是它们能够自行提取和学习模式。作为输入,您可以考虑将词向量与 vectorised/numerical 等效的 POS 标签连接起来,最后是奇点状态:
------------------- ---- -
\_________________/ \__/ | } ------ 25d vector input to the MLP (assuming your POS takes 4 spaces)
w2v vector POS state
只要您对训练、测试和未见过的数据遵循一致的方案,您的 MLP 就会在学习时使用整个输入自动从输入中提取特征。