此场景的文本分类技术

Text Classification Technique for this scenario

我对机器学习算法完全陌生,我有一个关于数据集分类的快速问题。

目前有一个训练数据,由两列消息和标识符组成。

消息 - 从包含时间戳和一些文本的日志中提取的典型消息 标识符 - 应该根据消息内容分类。

训练数据是通过从工具中提取特定类别并对其进行相应标记来准备的。

现在测试数据只包含消息,我正在尝试相应地获取类别。

在这种情况下哪种方法最有用?是监督学习还是非监督学习?

我有一个经过训练的数据集,我正在尝试预测测试数据的类别。

提前致谢, 亚当

如果您的标签准确无误,那么您可以使用 ANN、SVM 等进行分类。但是标签不准确,您必须根据数据中的特征对数据进行聚类。 K 均值或最近邻可以作为聚类的起点。

您有要预测的标签和训练数据。

所以根据定义,这是一个监督问题。

尝试任何文本分类器,例如 NB、kNN、SVM、ANN、RF...

很难预测哪种方法最适合您的数据。您将不得不 尝试评估几个 .

是监督学习,分类问题。

但是,显然您的测试集没有标签列(待预测值)。因此,您无法计算该测试集的错误度量(例如误报率、准确性等)。

但是,您可以将 拥有的标记训练数据集拆分为较小的训练集和验证集。也许将它分成 70%/30%。然后根据较小的 70% 训练数据集构建预测模型。然后在你的 30% 验证集上调整它。当准确性足够好时,然后将其应用于您的测试集以 obtain/predict 缺失值。

使用哪种技术/算法是另一个问题。你没有提供足够的信息来回答这个问题。即使你这样做了,你仍然需要自己调整模型。