斯坦福 CoreNLP 训练示例
Stanford CoreNLP Training Examples
任何人都知道以下文件的位置:
trainFileList = /u/nlp/data/ner/column_data/muc6.ptb.train,
/u/nlp/data/ner/column_data/muc7.ptb.train
我正在关注常见问题 link http://nlp.stanford.edu/software/crf-faq.shtml#a
如果我需要做的只是提供一个包含由标记和 class 组成的两列的文件,那么就可以了。但我很好奇 classifier 属性 文件中列出的训练文件。
serializeTo = english.muc.7class.caseless.distsim.crf.ser.gz
java -mx1g -cp "$CLASSPATH" edu.stanford.nlp.ie.NERClassifierCombiner -textFile sample.txt -ner.model classifiers/english.all.3class.distsim.crf.ser.gz, classifiers/english.conll.4class.distsim.crf.ser.gz,classifiers/english.muc.7class.distsim.crf.ser.gz -outputFormat tabbedEntities -textFile sample.txt > sample2.tsv
这些文件是 MUC-6 和 MUC-7 任务的训练数据:
http://cs.nyu.edu/faculty/grishman/muc6.html
它们不是由斯坦福分发的。我会看看我是否能弄清楚它们分布在哪里并更新这个答案。
更新:如果您想获得副本,LDC 会分发这些文件,它们存在版权问题,因此您必须从 LDC 购买,这就是我们不分发它们的原因。以下是一些包含更多信息的链接:
http://www-nlpir.nist.gov/related_projects/muc/muc_data/muc_data_index.html
任何人都知道以下文件的位置:
trainFileList = /u/nlp/data/ner/column_data/muc6.ptb.train, /u/nlp/data/ner/column_data/muc7.ptb.train
我正在关注常见问题 link http://nlp.stanford.edu/software/crf-faq.shtml#a
如果我需要做的只是提供一个包含由标记和 class 组成的两列的文件,那么就可以了。但我很好奇 classifier 属性 文件中列出的训练文件。
serializeTo = english.muc.7class.caseless.distsim.crf.ser.gz
java -mx1g -cp "$CLASSPATH" edu.stanford.nlp.ie.NERClassifierCombiner -textFile sample.txt -ner.model classifiers/english.all.3class.distsim.crf.ser.gz, classifiers/english.conll.4class.distsim.crf.ser.gz,classifiers/english.muc.7class.distsim.crf.ser.gz -outputFormat tabbedEntities -textFile sample.txt > sample2.tsv
这些文件是 MUC-6 和 MUC-7 任务的训练数据:
http://cs.nyu.edu/faculty/grishman/muc6.html
它们不是由斯坦福分发的。我会看看我是否能弄清楚它们分布在哪里并更新这个答案。
更新:如果您想获得副本,LDC 会分发这些文件,它们存在版权问题,因此您必须从 LDC 购买,这就是我们不分发它们的原因。以下是一些包含更多信息的链接:
http://www-nlpir.nist.gov/related_projects/muc/muc_data/muc_data_index.html