Quanteda 摘要(语料库)返回的变量类型是什么意思?
Quanteda what does the variable Types mean that is returned by summary(corpus)?
我正在研究 R 中的 quanteda 包,但我无法从文档中找到 summary(immig_corp) 返回的名为 Types 的变量的含义。
require(quanteda)
require(readtext)
现在我创建语料库:
immig_corp <- corpus(data_char_ukimmig2010,
docvars = data.frame(party = names(data_char_ukimmig2010)))
现在我想显示一些关于我刚刚创建的语料库的信息。类型是摘要(语料库)总是给出的通用属性之一。
summary(immig_corp)
这个 returns 我以下:
Corpus consisting of 9 documents:
Text Types Tokens Sentences party
BNP 1125 3280 88 BNP
Coalition 142 260 4 Coalition
Conservative 251 499 15 Conservative
Greens 322 679 21 Greens
Labour 298 683 29 Labour
LibDem 251 483 14 LibDem
PC 77 114 5 PC
SNP 88 134 4 SNP
UKIP 346 723 27 UKIP
让我们专注于immig_corp <- corpus(data_char_ukimmig2010)
。这returns以下:
Corpus consisting of 9 documents:
Text Types Tokens Sentences
BNP 1125 3280 88
Coalition 142 260 4
Conservative 251 499 15
Greens 322 679 21
Labour 298 683 29
LibDem 251 483 14
PC 77 114 5
SNP 88 134 4
UKIP 346 723 27
现在Text
是文件名。 Sentences
是文档中的句子数。 Tokens
是文本中标记的数量,Types
是文本中唯一标记的数量。所以对于 BNP 有 1125 个唯一标记,3280 个标记和 88 个句子。
您可以按如下方式重新创建计数:
# Sentences
nsentence(immig_corp)
BNP Coalition Conservative Greens Labour LibDem PC SNP UKIP
88 4 15 21 29 14 5 4 27
# Tokens
ntoken(immig_corp)
BNP Coalition Conservative Greens Labour LibDem PC SNP UKIP
3280 260 499 679 683 483 114 134 723
# Types
ntype(immig_corp)
BNP Coalition Conservative Greens Labour LibDem PC SNP UKIP
1125 142 251 322 298 251 77 88 346
我正在研究 R 中的 quanteda 包,但我无法从文档中找到 summary(immig_corp) 返回的名为 Types 的变量的含义。
require(quanteda)
require(readtext)
现在我创建语料库:
immig_corp <- corpus(data_char_ukimmig2010,
docvars = data.frame(party = names(data_char_ukimmig2010)))
现在我想显示一些关于我刚刚创建的语料库的信息。类型是摘要(语料库)总是给出的通用属性之一。
summary(immig_corp)
这个 returns 我以下:
Corpus consisting of 9 documents:
Text Types Tokens Sentences party
BNP 1125 3280 88 BNP
Coalition 142 260 4 Coalition
Conservative 251 499 15 Conservative
Greens 322 679 21 Greens
Labour 298 683 29 Labour
LibDem 251 483 14 LibDem
PC 77 114 5 PC
SNP 88 134 4 SNP
UKIP 346 723 27 UKIP
让我们专注于immig_corp <- corpus(data_char_ukimmig2010)
。这returns以下:
Corpus consisting of 9 documents:
Text Types Tokens Sentences
BNP 1125 3280 88
Coalition 142 260 4
Conservative 251 499 15
Greens 322 679 21
Labour 298 683 29
LibDem 251 483 14
PC 77 114 5
SNP 88 134 4
UKIP 346 723 27
现在Text
是文件名。 Sentences
是文档中的句子数。 Tokens
是文本中标记的数量,Types
是文本中唯一标记的数量。所以对于 BNP 有 1125 个唯一标记,3280 个标记和 88 个句子。
您可以按如下方式重新创建计数:
# Sentences
nsentence(immig_corp)
BNP Coalition Conservative Greens Labour LibDem PC SNP UKIP
88 4 15 21 29 14 5 4 27
# Tokens
ntoken(immig_corp)
BNP Coalition Conservative Greens Labour LibDem PC SNP UKIP
3280 260 499 679 683 483 114 134 723
# Types
ntype(immig_corp)
BNP Coalition Conservative Greens Labour LibDem PC SNP UKIP
1125 142 251 322 298 251 77 88 346