提供涵盖该术语的文档数量的资源
Resource that provides number of documents where the term is covered
我正在寻找提供某个术语涵盖的文档数量的资源。例如,在索引互联网中大约有 250 亿份文档包含术语 "the"。
我不知道大型语料库(如网络)的任何文档频率列表,但有一些术语频率列表可用。例如,有frequency lists from the web corpora compiled by the Web-As-Corpus Kool Yinitiative, which include the 2-billion ukWaC English web corpus. Alternatively, there are the n-grams from the Google Books Corpus。
has been shown 可以使用此类术语频率计数来可靠地估计文档频率计数。
Here是可以处理的频率多一点。
另请查看 this site - 它包含大量有关现有语料库和 words/ngrams 列表的信息。不幸的是,大多数资源都是付费的,但不是 n-gram(对于 n > 1),所以如果你要处理多词术语,它会有所帮助。
我正在寻找提供某个术语涵盖的文档数量的资源。例如,在索引互联网中大约有 250 亿份文档包含术语 "the"。
我不知道大型语料库(如网络)的任何文档频率列表,但有一些术语频率列表可用。例如,有frequency lists from the web corpora compiled by the Web-As-Corpus Kool Yinitiative, which include the 2-billion ukWaC English web corpus. Alternatively, there are the n-grams from the Google Books Corpus。
has been shown 可以使用此类术语频率计数来可靠地估计文档频率计数。
Here是可以处理的频率多一点。
另请查看 this site - 它包含大量有关现有语料库和 words/ngrams 列表的信息。不幸的是,大多数资源都是付费的,但不是 n-gram(对于 n > 1),所以如果你要处理多词术语,它会有所帮助。