我如何将完全标记的数据集拆分为标记和未标记数据以用于半监督学习目的

How I can split a fully labeled dataset into labeled and unlabeled data for semi-supervised learning purpose

我正在研究一种新想法,以提高半监督学习中的分类准确性。我想使用相同的文本分类数据集并将该数据集拆分为标记集和未标记集,如何在 Java?

中做到这一点

谁能帮帮我?

使用较少的标签不会提高准确性。如果您拆分数据以从一组中删除标签并将其用于半监督学习,这只会降低您的准确性。 半监督的目的在于,为监督学习标记海量数据的过程是极其耗时和昂贵的,所以如果你需要更多的数据(你已经拥有的),那么你可以使用技术来使用未标记的数据。 在考虑 Java 中的编码之前,您能否进一步了解您为什么会想到这个?