Quanteda 摘要（语料库）返回的变量类型是什么意思？

Question

我正在研究 R 中的 quanteda 包，但我无法从文档中找到 summary(immig_corp) 返回的名为 Types 的变量的含义。

require(quanteda)
require(readtext)

现在我创建语料库：

immig_corp <- corpus(data_char_ukimmig2010, 
                 docvars = data.frame(party = names(data_char_ukimmig2010)))

现在我想显示一些关于我刚刚创建的语料库的信息。类型是摘要（语料库）总是给出的通用属性之一。

summary(immig_corp)

这个 returns 我以下:

Corpus consisting of 9 documents:

         Text Types Tokens Sentences        party
         BNP  1125   3280        88          BNP
   Coalition   142    260         4    Coalition
Conservative   251    499        15 Conservative
      Greens   322    679        21       Greens
      Labour   298    683        29       Labour
      LibDem   251    483        14       LibDem
          PC    77    114         5           PC
         SNP    88    134         4          SNP
        UKIP   346    723        27         UKIP

Answer 1

让我们专注于immig_corp <- corpus(data_char_ukimmig2010)。这returns以下：

Corpus consisting of 9 documents:

         Text Types Tokens Sentences
          BNP  1125   3280        88
    Coalition   142    260         4
 Conservative   251    499        15
       Greens   322    679        21
       Labour   298    683        29
       LibDem   251    483        14
           PC    77    114         5
          SNP    88    134         4
         UKIP   346    723        27

现在Text是文件名。 Sentences 是文档中的句子数。 Tokens 是文本中标记的数量，Types 是文本中唯一标记的数量。所以对于 BNP 有 1125 个唯一标记，3280 个标记和 88 个句子。

您可以按如下方式重新创建计数：

# Sentences
nsentence(immig_corp)
         BNP    Coalition Conservative       Greens       Labour       LibDem           PC          SNP         UKIP 
          88            4           15           21           29           14            5            4           27 

# Tokens
ntoken(immig_corp)
         BNP    Coalition Conservative       Greens       Labour       LibDem           PC          SNP         UKIP 
        3280          260          499          679          683          483          114          134          723 

# Types
ntype(immig_corp)
         BNP    Coalition Conservative       Greens       Labour       LibDem           PC          SNP         UKIP 
        1125          142          251          322          298          251           77           88          346

Quanteda 摘要（语料库）返回的变量类型是什么意思？

Quanteda what does the variable Types mean that is returned by summary(corpus)?

r

quanteda