令牌中的 'originalText' 和 'word' 键有什么区别？

Question

当使用 NLTK 中的 CoreNLPParser 和 CoreNLP Server 时，生成的令牌包含一个 'originalText' 键和一个 'word'键。

两者有什么区别？有没有关于它们的文档？

我只找到 this issue，它提到了 origintalText 键，但它没有回答我的问题。

from nltk.parse.corenlp import CoreNLPParser 

corenlp_parser = CoreNLPParser('http://localhost:9000', encoding='utf8')
text = u'我家没有电脑。'

result = corenlp_parser.api_call(text, {'annotators': 'tokenize,ssplit'})
print(result)

打印

{
   "sentences":[
      {
         "index":0,
         "tokens":[
            {
               "index":1,
               "word":"我家",
               "originalText":"我家",
               "characterOffsetBegin":0,
               "characterOffsetEnd":2
            },
            {
               "index":2,
               "word":"没有",
               "originalText":"没有",
               "characterOffsetBegin":2,
               "characterOffsetEnd":4
            },
            {
               "index":3,
               "word":"电脑",
               "originalText":"电脑",
               "characterOffsetBegin":4,
               "characterOffsetEnd":6
            },
            {
               "index":4,
               "word":"。",
               "originalText":"。",
               "characterOffsetBegin":6,
               "characterOffsetEnd":7
            }
         ]
      }
   ]
}

更新：

似乎 Token 实现了 HasWord 和 HasOriginalText

Answer 1

A word 稍微转换一下，例如，可以在 S 表达式（即解析树）中打印它。因此，圆括号和其他大括号成为 -LRB-（左圆括号）之类的标记。此外，引号被规范化为反引号 (``) 和正向引号 ('') 以及其他一些小东西。

originalText，相比之下，是token的字面原文，可以用来重构原句。

令牌中的 'originalText' 和 'word' 键有什么区别？

What's the difference between the 'originalText' and 'word' keys in a token?

nltk

stanford-nlp