训练文本分类器的数据集

Dataset for training text classifier

我是数据挖掘的新手,我正在尝试构建一个分类器,该分类器能够将学生论文摘要分类为计算机科学领域下的一组预定义类别,例如机器学习、图像处理等。 我没有足够的分类摘要来用作训练数据集,所以请您指导我使用可用于此特定目的的数据集。

您可以使用 DBLP 数据(可从 http://dblp.uni-trier.de/xml/ 下载)生成出版物列表。基于 conferences/journal 你可以生成你的 类 例如MLJR 始终是机器学习。

您可以获得的摘要使用: https://github.com/arc12/Text-Mining-Weak-Signals/blob/master/Abstract%20Acquisition%20Scripts/DBLP%20XML%20fetch%20abstracts%20.pl