基于关键词的推文分类

Keyword-Based Classification of Tweets

我有大约 40,000 条推文的数据集。我还有 5 个文本文件,它们都对应于我想将推文分类为(旅行、工作、假期等)的不同类别。这些文本文件中的每一个都包含该类别的某些特定关键字。

例如,度假的文本文件(vacation.txt)包含航班,海滩,酒店等

我想通过将这些文本文件中包含的关键字映射到关联的类别来标记我的数据集。

例如,一条包含单词"beach"的推文将被标记为假期。

我使用 python 进行所有分析。推文包含在 .csv 文件.

另外,我可以采用哪些其他有趣的方法来标记和分类我的数据?我知道基于关键字的方法不是最有效或最准确的。

可以有多种方式。

如果您只是通过关键字搜索来标记数据,那么我认为这不是更好的方法。

  1. 关键字方法。 您将计算关键字匹配的数量,然后相应地分配标签,但在这里您必须进行特征选择以确保模型不会偏向于关键字搜索。最好为标签映射关键字,然后制作词云以查看这些关键字是否不是唯一出现在顶部的关键字。您可以使用 tf-idf、计数矢量化器以及稍后的嵌入,例如 glove 或 fasttext 或者可能是 BERT。

  2. 聚类方法。 您将关键字和标签放在一边,并根据标签计数创建那么多的聚类并可视化这些聚类并分析您是否可以找到在 1 方法中分配的标签重叠。

  3. 使用主动学习。 这有点复杂,但在这里你为一些标签分配标签,然后让系统分析那些稀疏标签并派生集群并根据反馈进行改进,这更像是循环概念中的人类。

如果您想对上述任何一种或多种方法获得更详细的答案,请告诉我。