基于主题频率的分类文档
Classification documents based on topic frequency
我需要一种方法来阐明以下数据集的主导主题,以下数据集是在对所有文档进行预处理后生成的,
以下选定的主题频率如下:
TOPICS
id Doc-name total words Politics sport food animals
1 doc1 1000 300 250 100 350
2 doc2 2000 1000 400 200 400
3 doc3 4000 500 300 2000 200
etc...
问题是:
这种数据集有什么分类方法吗?
如果我认为 doc1 是动物,这是真的吗?
有什么方法可以计算该文档中每个主题的概率以找到文档主导主题?
有什么建议吗?
这种分类方法仅适用于确定文档类型与给定主题相关的情况。这种类型的分析决不能让人了解它所写博客的真实背景。
如果我说“The athlete is certainly faster than any cat, dog, cow or a sheep”这句话的上下文是什么?它在谈论动物吗?
通过此类分析,您可以对句子的上下文做出的唯一结论是“该句子具有导致描述运动和动物的因素。这些因素的参与度为 4 比 2 ”。
您可以继续使用标准方法计算概率。但这些数字与真实背景的相关性可能很遥远。
我需要一种方法来阐明以下数据集的主导主题,以下数据集是在对所有文档进行预处理后生成的,
以下选定的主题频率如下:
TOPICS
id Doc-name total words Politics sport food animals
1 doc1 1000 300 250 100 350
2 doc2 2000 1000 400 200 400
3 doc3 4000 500 300 2000 200
etc...
问题是: 这种数据集有什么分类方法吗? 如果我认为 doc1 是动物,这是真的吗? 有什么方法可以计算该文档中每个主题的概率以找到文档主导主题? 有什么建议吗?
这种分类方法仅适用于确定文档类型与给定主题相关的情况。这种类型的分析决不能让人了解它所写博客的真实背景。
如果我说“The athlete is certainly faster than any cat, dog, cow or a sheep”这句话的上下文是什么?它在谈论动物吗?
通过此类分析,您可以对句子的上下文做出的唯一结论是“该句子具有导致描述运动和动物的因素。这些因素的参与度为 4 比 2 ”。
您可以继续使用标准方法计算概率。但这些数字与真实背景的相关性可能很遥远。