Stanford NER 中的单词如何转换为向量

How are Words converted to Vectors in Stanford NER

我正在看斯坦福 NER,想知道单词是如何表示的。在使用线性 CRF 训练模型时,它们是否使用 Word2Vec 或 Glove 转换为向量。

更多的研究表明数据存储在 CRFDatum 结构中。任何人都可以详细说明一下吗?

好吧,现在我知道老派 AI 人的感受了......

在过去(包括构建 NER 系统时),在神经网络起飞之前,统计 ML 使用定制的特征化器将离散输出转换为向量。对于语言,这通常会导致非常长但稀疏的单热特征向量。例如,特征化器可能会为每个单词分配一个单热表示:1 在与单词对应的索引处,而在其他地方为零。对于 NER,这些特征通常是单词中的字符(one-hot 编码)、长度为 $k$ 的前缀和后缀、单词形状、词性标记等。

在斯坦福的代码中,这些稀疏向量通常表示为 Counter 一种或另一种形式的对象,然后将其传递到 Datum 对象并转换为更密集的 Dataset 对象,它被送入优化器(通常,QNMinimizer,实现 L-BFGS)。