Stanford NER 工具——训练文件中的空格
Stanford NER tool -- spaces in training file
我一直在查看 Stanford NER 分类器。我已经能够使用一个简单的文件来训练模型,该文件仅包含空格来分隔系统期望的项目。例如,
/a/b/c 桑费罗 2
/d/e/f姜2
但是,我 运行 在尝试以下形式时遇到错误:
/a/b/c 圣铁 2
此处 "san ferro" 是单个 "word",“2”是 "answer" 或所需的标签输出。
如何编码空格?我试过用双引号引起来,但这不起作用。
通常您使用 CoNLL 样式数据来训练 CRF。这是一个例子:
-DOCSTART- O
John PERSON
Smith PERSON
went O
to O
France LOCATION
. O
Jane PERSON
Smith PERSON
went O
to O
Hawaii LOCATION
. O
“\t”字符分隔标记和标签。你在句子之间放了一个空格space。您使用特殊符号“-DOCSTART-”来指示新文档的开始位置。通常,您会提供一大组句子。训练CRF时就是这种情况。
如果您只是想始终以相同的方式标记某些模式,您可能需要使用 RegexNER,其描述如下:http://nlp.stanford.edu/software/regexner/
这里有更多关于使用 NER 系统的文档:http://nlp.stanford.edu/software/crf-faq.shtml
我一直在查看 Stanford NER 分类器。我已经能够使用一个简单的文件来训练模型,该文件仅包含空格来分隔系统期望的项目。例如,
/a/b/c 桑费罗 2
/d/e/f姜2
但是,我 运行 在尝试以下形式时遇到错误:
/a/b/c 圣铁 2
此处 "san ferro" 是单个 "word",“2”是 "answer" 或所需的标签输出。 如何编码空格?我试过用双引号引起来,但这不起作用。
通常您使用 CoNLL 样式数据来训练 CRF。这是一个例子:
-DOCSTART- O
John PERSON
Smith PERSON
went O
to O
France LOCATION
. O
Jane PERSON
Smith PERSON
went O
to O
Hawaii LOCATION
. O
“\t”字符分隔标记和标签。你在句子之间放了一个空格space。您使用特殊符号“-DOCSTART-”来指示新文档的开始位置。通常,您会提供一大组句子。训练CRF时就是这种情况。
如果您只是想始终以相同的方式标记某些模式,您可能需要使用 RegexNER,其描述如下:http://nlp.stanford.edu/software/regexner/
这里有更多关于使用 NER 系统的文档:http://nlp.stanford.edu/software/crf-faq.shtml