Stanford NER 中的单词如何转换为向量

How are Words converted to Vectors in Stanford NER

我正在看斯坦福 NER，想知道单词是如何表示的。在使用线性 CRF 训练模型时，它们是否使用 Word2Vec 或 Glove 转换为向量。

更多的研究表明数据存储在 CRFDatum 结构中。任何人都可以详细说明一下吗？

好吧，现在我知道老派 AI 人的感受了......

在过去（包括构建 NER 系统时），在神经网络起飞之前，统计 ML 使用定制的特征化器将离散输出转换为向量。对于语言，这通常会导致非常长但稀疏的单热特征向量。例如，特征化器可能会为每个单词分配一个单热表示：1 在与单词对应的索引处，而在其他地方为零。对于 NER，这些特征通常是单词中的字符（one-hot 编码）、长度为 $k$ 的前缀和后缀、单词形状、词性标记等。

在斯坦福的代码中，这些稀疏向量通常表示为 Counter 一种或另一种形式的对象，然后将其传递到 Datum 对象并转换为更密集的 Dataset 对象，它被送入优化器（通常，QNMinimizer，实现 L-BFGS）。

Stanford NER 中的单词如何转换为向量

How are Words converted to Vectors in Stanford NER

stanford-nlp

word2vec