将大量分类变量编码为输入数据
Encoding large numbers of categorical variables as input data
当你处理数百个类别时,一个热编码听起来并不是一个好主意。其中一列为 "first name" 的数据集。编码此类数据的最佳方法是什么?
如果您有大量类别,分类算法将无法正常工作。相反,有一种更好的方法可以做到这一点。您对数据应用回归算法,然后在这些输出上训练偏移量。它会给你更好的结果。
可以找到示例代码 here。
我推荐散列技巧:
https://en.wikipedia.org/wiki/Feature_hashing#Feature_vectorization_using_the_hashing_trick
它计算成本低,易于使用,允许您指定维度,并且经常作为分类的一个很好的基础。
对于您的特定应用程序,我会散列特征值对,例如 ('FirstName','John'),然后增加散列值的存储桶。
当你处理数百个类别时,一个热编码听起来并不是一个好主意。其中一列为 "first name" 的数据集。编码此类数据的最佳方法是什么?
如果您有大量类别,分类算法将无法正常工作。相反,有一种更好的方法可以做到这一点。您对数据应用回归算法,然后在这些输出上训练偏移量。它会给你更好的结果。
可以找到示例代码 here。
我推荐散列技巧:
https://en.wikipedia.org/wiki/Feature_hashing#Feature_vectorization_using_the_hashing_trick
它计算成本低,易于使用,允许您指定维度,并且经常作为分类的一个很好的基础。
对于您的特定应用程序,我会散列特征值对,例如 ('FirstName','John'),然后增加散列值的存储桶。