"document" 在 NLP 上下文中意味着什么?

What does "document" mean in a NLP context?

当我在 Wiki 上阅读有关 tf–idf 的内容时,我对 "document" 这个词的含义感到困惑。是段落的意思吗?

"The inverse document frequency is a measure of how much information the word provides, that is, whether the term is common or rare across all documents. It is the logarithmically scaled inverse fraction of the documents that contain the word, obtained by dividing the total number of documents by the number of documents containing the term, and then taking the logarithm of that quotient."

Documenttf-idf 上下文中通常可以被认为是 bag of words。在一个vector space model中每个词都是一个非常high-dimensionalspace中的一个维度,其中一个词向量的大小就是该词(term)在文档中出现的次数。 Document-Term 矩阵表示一个矩阵,其中行表示文档,列表示术语,矩阵中的每个单元格表示文档中单词的出现次数。希望清楚。

A "document" 是不同的文本。这通常意味着每篇文章、书籍等都是自己的文档。

如果需要,您可以将单个段落甚至句子视为 "document"。都是眼光问题。