浏览器和版本应该如何进行热编码?

How should browser and version be one hot encoded?

我需要为一个热编码输出浏览器和版本数据。我们提出了几个选项(如下所述)。我进行了一些搜索,但找不到具有相似数据的任何现有示例(已搜索 Kaggle Datasets and DuckDuckGo)。

| order_id | browser_version |
| 1        | Safari-1.2.3    |
| 2        | Chrome-4.5.6    |
| 3        | Firefox-7.8.9   |
| order_id | browser | version |
| 1        | Safari  | 1.2.3   |
| 2        | Chrome  | 4.5.6   |
| 3        | Firefox | 7.8.9   |
| order_id | browser | browser_version |
| 1        | Safari  | Safari-1.2.3    |
| 2        | Chrome  | Chrome-4.5.6    |
| 3        | Firefox | Firefox-7.8.9   |

为一种热编码设置数据值(假设是 CSV 文件,列)的最有益方法是什么?

我想正确的答案可能是测试每个选项并检查结果,但我认为这可能是以前做过的事情,所以我认为值得一问。

我会使用第一个选项。它将给出每对索引(浏览器 | 版本)。

第二个选项将不同浏览器的版本号放在同一列中,而这些数字没有可比性。您可以将 Chrome 版本号与另一个 Chrome 版本号进行比较,但不能将 Chrome 版本号与 Firefox 版本号进行比较。

第三个选项包含第一个选项,还有额外的冗余数据。