如何使用 Cloud ML 一次性编码特征?

How do I one-hot encode features using Cloud ML?

如何使用 Cloud ML 对特征进行一次性编码?我必须在 TensorFlow 模型中执行此操作,还是可以在 Cloud ML SDK 本身中执行此操作?

在预处理(CsvFeatures)中,使用:

features.categorical('passenger_count')

您还可以传入一个频率阈值,以避免在数据中出现频率太低的单热编码值。

请注意,您需要做更多的工作来选择您想要的表示类型 - k(或单热)或稀疏之一。

features.categorical('passenger_count').one_of_k()

旁注,您可能还对数值列感兴趣,以及应用对数(通常对计数类型的特征很有用)或通过分桶进行离散化的能力。