featuretools / DFS 生成什么样的特征向量?
What kind of feature vectors does featuretools / DFS generate?
featuretools/DFS 生成的特征向量是密集的还是稀疏的,还是取决于某些东西?
Featuretools 生成的特征向量的稀疏性通常取决于
- 有问题的
EntitySet
和
- 选择的原语。
原语旨在返回 密集 信息。虽然有可能(但没有帮助)构造示例 EntitySets
使基元的输出稀疏,但基元返回 no 信息比稀疏信息更常见。
但是,某些原语和工作流比其他原语和工作流更有可能回馈稀疏。一个需要担心的大问题是 feature encoding,它使用 one-hot。因为只有当某个值出现时才生成一个带有 1s 的向量,所以一个不经常出现的分类值会立即转换为一个稀疏向量。使用 Where
聚合原语有时会产生类似的结果。
featuretools/DFS 生成的特征向量是密集的还是稀疏的,还是取决于某些东西?
Featuretools 生成的特征向量的稀疏性通常取决于
- 有问题的
EntitySet
和 - 选择的原语。
原语旨在返回 密集 信息。虽然有可能(但没有帮助)构造示例 EntitySets
使基元的输出稀疏,但基元返回 no 信息比稀疏信息更常见。
但是,某些原语和工作流比其他原语和工作流更有可能回馈稀疏。一个需要担心的大问题是 feature encoding,它使用 one-hot。因为只有当某个值出现时才生成一个带有 1s 的向量,所以一个不经常出现的分类值会立即转换为一个稀疏向量。使用 Where
聚合原语有时会产生类似的结果。