在 R 中混合使用文本和分类列进行文本分析

Text analysis with a mix of text & categorical columns in R

我有一个 IT 操作工单数据集,其中包含工单编号、描述、类别、子类别、优先级等字段

我需要做的是使用可用数据(票号除外)来预测票的优先级。示例数据如下所示。

Number  Priority Created_on Description               Category     Sub Category
719515  MEDIUM  05-01-2016  MedWay 3rd Lucene.... Server       Change
720317  MEDIUM  07-01-2016  DI - Medway 13146409  Application  Incident
720447  MEDIUM  08-01-2016  DI QLD Chermside....  Application  Medway

请指导我。

没有更多的回答有点难,而且这更像是上下文问题而不是代码问题。但这是我用来开始评估这个问题的逻辑 请记住,它可能涉及编写几个单独的脚本,每个脚本执行任务的一部分。

尝试将问题分解成更小的问题 pieces.You 没有所有数据就无法进行分析,因此请从创建数据开始。

您的类别和子类别已经列出了每个列表中的所有独特因素,并根据您的系统和业务需求为每个因素创建了一组权重。在设置子类别权重时,请记住它们将如何与类别交互(+/- 以及大小)。

写一个脚本来阅读描述,统计所有非平凡的单词。为单词创建某种分类以帮助您构建列表,这些列表将告知模型类别和子类别。 该值是错误消息、机器名称,还是可以使用关键字提取的其他代码或问题类型?

所有的词组是如何有意义的? 这将如何有助于做出决定?

当你决定这些事情时,想想类别。

然后使用所有部件确定模型、构建、测试和改进。我知道这里面没有代码,但数据科学的问题解决部分大部分时间都发生在代码之外。

你需要自己想出代码。如果您遇到困难 post 编辑,我们可以提供帮助。