Quanteda 摘要(语料库)返回的变量类型是什么意思?

Quanteda what does the variable Types mean that is returned by summary(corpus)?

我正在研究 R 中的 quanteda 包,但我无法从文档中找到 summary(immig_corp) 返回的名为 Types 的变量的含义。

require(quanteda)
require(readtext)

现在我创建语料库:

immig_corp <- corpus(data_char_ukimmig2010, 
                 docvars = data.frame(party = names(data_char_ukimmig2010)))

现在我想显示一些关于我刚刚创建的语料库的信息。类型是摘要(语料库)总是给出的通用属性之一。

summary(immig_corp)

这个 returns 我以下:

Corpus consisting of 9 documents:

         Text Types Tokens Sentences        party
         BNP  1125   3280        88          BNP
   Coalition   142    260         4    Coalition
Conservative   251    499        15 Conservative
      Greens   322    679        21       Greens
      Labour   298    683        29       Labour
      LibDem   251    483        14       LibDem
          PC    77    114         5           PC
         SNP    88    134         4          SNP
        UKIP   346    723        27         UKIP

让我们专注于immig_corp <- corpus(data_char_ukimmig2010)。这returns以下:

Corpus consisting of 9 documents:

         Text Types Tokens Sentences
          BNP  1125   3280        88
    Coalition   142    260         4
 Conservative   251    499        15
       Greens   322    679        21
       Labour   298    683        29
       LibDem   251    483        14
           PC    77    114         5
          SNP    88    134         4
         UKIP   346    723        27

现在Text是文件名。 Sentences 是文档中的句子数。 Tokens 是文本中标记的数量,Types 是文本中唯一标记的数量。所以对于 BNP 有 1125 个唯一标记,3280 个标记和 88 个句子。

您可以按如下方式重新创建计数:

# Sentences
nsentence(immig_corp)
         BNP    Coalition Conservative       Greens       Labour       LibDem           PC          SNP         UKIP 
          88            4           15           21           29           14            5            4           27 

# Tokens
ntoken(immig_corp)
         BNP    Coalition Conservative       Greens       Labour       LibDem           PC          SNP         UKIP 
        3280          260          499          679          683          483          114          134          723 

# Types
ntype(immig_corp)
         BNP    Coalition Conservative       Greens       Labour       LibDem           PC          SNP         UKIP 
        1125          142          251          322          298          251           77           88          346