我如何标记或给文本文档一个主题?

How can I tag or give a document of text a topic?

我有一组文档和这些文档的相应标签集

例如

文件-“为上诉人出庭的博学律师指出,在..等等等等”

标签 - “补偿,基本权利”

现在我有多个文档及其相应的标签,我有另一组没有任何标签的测试数据我使用什么 NLP 技术来给这些文档标签?我是使用文本分类还是主题建模,有人可以指导或提出一些想法吗?

您可以使用两种方法:

1- 基于规则(提取每个标签中的常用词并用它们对文档进行分类)

2-机器学习

如果您有大量训练数据,您可以使用机器学习对文档进行分类:

您可以使用以下方法:

https://arxiv.org/abs/1904.08398

https://medium.com/@armandj.olivares/using-bert-for-classifying-documents-with-long-texts-5c3e7b04573d