Stanford NER 工具——训练文件中的空格

Question

我一直在查看 Stanford NER 分类器。我已经能够使用一个简单的文件来训练模型，该文件仅包含空格来分隔系统期望的项目。例如，

/a/b/c 桑费罗 2

/d/e/f姜2

但是，我运行在尝试以下形式时遇到错误：

/a/b/c 圣铁 2

此处 "san ferro" 是单个 "word"，“2”是 "answer" 或所需的标签输出。如何编码空格？我试过用双引号引起来，但这不起作用。

Answer 1

通常您使用 CoNLL 样式数据来训练 CRF。这是一个例子：

-DOCSTART-    O 

John    PERSON
Smith   PERSON
went    O
to      O
France  LOCATION
.       O

Jane    PERSON
Smith   PERSON
went    O
to      O
Hawaii  LOCATION
.       O

“\t”字符分隔标记和标签。你在句子之间放了一个空格space。您使用特殊符号“-DOCSTART-”来指示新文档的开始位置。通常，您会提供一大组句子。训练CRF时就是这种情况。

如果您只是想始终以相同的方式标记某些模式，您可能需要使用 RegexNER，其描述如下：http://nlp.stanford.edu/software/regexner/

这里有更多关于使用 NER 系统的文档：http://nlp.stanford.edu/software/crf-faq.shtml

Stanford NER 工具——训练文件中的空格

Stanford NER tool -- spaces in training file

stanford-nlp