从通用标签集生成 PCFG
Generating PCFG from Universal tagset
我正在尝试使用从以下代码获得的 POS 标签构建 PCFG:
from nltk.corpus import treebank
corpus = treebank.tagged_sents(tagset='universal')
tags = set()
for sent in corpus:
for (word, tag) in sent:
tags.add(tag)
tags = list(tags)
print tags
给予,
['ADV', 'NOUN', 'ADP', 'PRON', 'DET', '.', 'PRT', 'NUM', 'X', 'CONJ', 'ADJ', 'VERB']
我需要使用上面的 POS 标签生成 PCFG。但是,当我尝试使用
规则构建语法时
nltk.grammar.PCFG.fromstring("""T5 -> . NT6 [0.136235]""")
它产生
ValueError: Unable to parse line 1: T5 -> . NT6 [0.136235]
Expected a nonterminal, found: . NT6 [0.136235]
我假设异常指示“。”在 nltk.grammar.PCFG
中不是有效的非终结符。但我想知道是否有一种巧妙的方法来解决这个问题。
相关
nltk cant interpret grammar category PRP$ output by stanford parser 给出了一个很好的修复,可以将 treebank 标记集中的“$”添加到语法中。但是 treebank POS 标签集再次包含单引号 (' ') 作为 POS 标签,这不是有效符号。
是否有解决此问题而无需将每个特殊字符添加到语法中的巧妙解决方法?
我得到了这个问题的答案。不使用 fromstring
方法,而是通过传递 nltk.ProbabilisticProduction
对象列表和 nltk.Nonterminal
对象来生成 PCFG 对象,如下所示:
from nltk import ProbabilisticProduction
from nltk.grammar import PCFG
from nltk import Nonterminal as NT
g = ProbabilisticProduction(NT('TS'), [NT('.'), NT('NT6')], prob=1)
# Adding a terminal production
g = ProbabilisticProduction(NT('NT6'), ['terminal'], prob = 1)
start = NT('Q0') # Q0 is the start symbol for my grammar
PCFG(start, [g]) # Takes a list of ProbabilisticProductions
我正在尝试使用从以下代码获得的 POS 标签构建 PCFG:
from nltk.corpus import treebank
corpus = treebank.tagged_sents(tagset='universal')
tags = set()
for sent in corpus:
for (word, tag) in sent:
tags.add(tag)
tags = list(tags)
print tags
给予,
['ADV', 'NOUN', 'ADP', 'PRON', 'DET', '.', 'PRT', 'NUM', 'X', 'CONJ', 'ADJ', 'VERB']
我需要使用上面的 POS 标签生成 PCFG。但是,当我尝试使用
规则构建语法时nltk.grammar.PCFG.fromstring("""T5 -> . NT6 [0.136235]""")
它产生
ValueError: Unable to parse line 1: T5 -> . NT6 [0.136235]
Expected a nonterminal, found: . NT6 [0.136235]
我假设异常指示“。”在 nltk.grammar.PCFG
中不是有效的非终结符。但我想知道是否有一种巧妙的方法来解决这个问题。
相关
nltk cant interpret grammar category PRP$ output by stanford parser 给出了一个很好的修复,可以将 treebank 标记集中的“$”添加到语法中。但是 treebank POS 标签集再次包含单引号 (' ') 作为 POS 标签,这不是有效符号。
是否有解决此问题而无需将每个特殊字符添加到语法中的巧妙解决方法?
我得到了这个问题的答案。不使用 fromstring
方法,而是通过传递 nltk.ProbabilisticProduction
对象列表和 nltk.Nonterminal
对象来生成 PCFG 对象,如下所示:
from nltk import ProbabilisticProduction
from nltk.grammar import PCFG
from nltk import Nonterminal as NT
g = ProbabilisticProduction(NT('TS'), [NT('.'), NT('NT6')], prob=1)
# Adding a terminal production
g = ProbabilisticProduction(NT('NT6'), ['terminal'], prob = 1)
start = NT('Q0') # Q0 is the start symbol for my grammar
PCFG(start, [g]) # Takes a list of ProbabilisticProductions