Stanford NER 工具——训练文件中的空格

Stanford NER tool -- spaces in training file

我一直在查看 Stanford NER 分类器。我已经能够使用一个简单的文件来训练模型,该文件仅包含空格来分隔系统期望的项目。例如,

/a/b/c 桑费罗 2

/d/e/f姜2

但是,我 运行 在尝试以下形式时遇到错误:

/a/b/c 圣铁 2

此处 "san ferro" 是单个 "word",“2”是 "answer" 或所需的标签输出。 如何编码空格?我试过用双引号引起来,但这不起作用。

通常您使用 CoNLL 样式数据来训练 CRF。这是一个例子:

-DOCSTART-    O 

John    PERSON
Smith   PERSON
went    O
to      O
France  LOCATION
.       O

Jane    PERSON
Smith   PERSON
went    O
to      O
Hawaii  LOCATION
.       O

“\t”字符分隔标记和标签。你在句子之间放了一个空格space。您使用特殊符号“-DOCSTART-”来指示新文档的开始位置。通常,您会提供一大组句子。训练CRF时就是这种情况。

如果您只是想始终以相同的方式标记某些模式,您可能需要使用 RegexNER,其描述如下:http://nlp.stanford.edu/software/regexner/

这里有更多关于使用 NER 系统的文档:http://nlp.stanford.edu/software/crf-faq.shtml