如何在 PySpark 世界中可视化变量分组或执行交互式分组?

How to visualize variable grouping or perform interactive grouping in PySpark world?

我想知道在 PySpark/Python 世界中是否有一种方法可以执行交互式变量分组(类似于 SAS Miner 软件启用的分组)。变量分组是模型开发不可或缺的一部分,所以我想必须已经有一些 tool/library 可能支持这一点。有人对此有经验吗?

目前 Python 不存在这样的库。

交互式变量分组是一个 multi-step 过程(作为一个名为 IGN in SAS Enterprise Miner) that is part of SAS EM Credit Scoring solution and not base SAS. Although there are tools in Python world for some of the IGN steps such as binning, WoE, Gini, decision trees, etc. Scikit-learn 的节点提供是一个很好的起点。

有很多 Scikit-learn related 个项目,其中包括 domain-specific 个。信用评分项目是该列表中的潜在候选者。