识别具有新属性 and/or 值的数据向量

Identify Data Vectors with New Attributes and/or Values

我正在使用 scikit-learn 建立一个分类系统。训练分类器后,我想将其与必要的转换(如 DictVectorizer)一起保存以供重用。

我正在寻找一种方法来过滤传入的未分类数据流,这些数据将馈送到特征转换和分类器中。理想情况下,我想删除并标记包含分类属性 and/or 新属性新值的向量。

我使用了 DictVectorizer.restrict() 方法来过滤输入数据,但这只会导致矢量化器过滤新属性并将新值归零,我还想将不一致的数据放在一边。有没有一种简单的方法可以提取具有不在初始数据集中的值和属性的行?

scikit-learn 中内置的任何内容都没有,因为删除行在当前 API 中不容易完成。 根据 DictVectorizer.

的输出编写自定义函数 / class 应该很容易