浏览器和版本应该如何进行热编码?
How should browser and version be one hot encoded?
我需要为一个热编码输出浏览器和版本数据。我们提出了几个选项(如下所述)。我进行了一些搜索,但找不到具有相似数据的任何现有示例(已搜索 Kaggle Datasets and DuckDuckGo)。
- 选项 1:将浏览器名称和版本合并在一起的一列
- 例如"browser_version" 列值:"Safari-1.2.3"、"Chrome-4.5.6"、"Firefox-7.8.9"
| order_id | browser_version |
| 1 | Safari-1.2.3 |
| 2 | Chrome-4.5.6 |
| 3 | Firefox-7.8.9 |
- 选项 2:两列:一列是浏览器名称,另一列是浏览器版本
- 例如"browser"(第 1 列)值:"Safari"、"Chrome"、"Firefox"
- 例如"version"(第 2 列)值:“1.2.3”、“4.5.6”、“7.8.9”
| order_id | browser | version |
| 1 | Safari | 1.2.3 |
| 2 | Chrome | 4.5.6 |
| 3 | Firefox | 7.8.9 |
- 选项 3:两列:一列是浏览器名称,另一列是浏览器名称和版本合并在一起
- 例如"browser"(第 1 列)值:"Safari"、"Chrome"、"Firefox"
- 例如"browser_version"(第 2 列)值:"Safari-1.2.3"、"Chrome-4.5.6"、"Firefox-7.8.9"
| order_id | browser | browser_version |
| 1 | Safari | Safari-1.2.3 |
| 2 | Chrome | Chrome-4.5.6 |
| 3 | Firefox | Firefox-7.8.9 |
为一种热编码设置数据值(假设是 CSV 文件,列)的最有益方法是什么?
我想正确的答案可能是测试每个选项并检查结果,但我认为这可能是以前做过的事情,所以我认为值得一问。
我会使用第一个选项。它将给出每对索引(浏览器 | 版本)。
第二个选项将不同浏览器的版本号放在同一列中,而这些数字没有可比性。您可以将 Chrome 版本号与另一个 Chrome 版本号进行比较,但不能将 Chrome 版本号与 Firefox 版本号进行比较。
第三个选项包含第一个选项,还有额外的冗余数据。
我需要为一个热编码输出浏览器和版本数据。我们提出了几个选项(如下所述)。我进行了一些搜索,但找不到具有相似数据的任何现有示例(已搜索 Kaggle Datasets and DuckDuckGo)。
- 选项 1:将浏览器名称和版本合并在一起的一列
- 例如"browser_version" 列值:"Safari-1.2.3"、"Chrome-4.5.6"、"Firefox-7.8.9"
| order_id | browser_version |
| 1 | Safari-1.2.3 |
| 2 | Chrome-4.5.6 |
| 3 | Firefox-7.8.9 |
- 选项 2:两列:一列是浏览器名称,另一列是浏览器版本
- 例如"browser"(第 1 列)值:"Safari"、"Chrome"、"Firefox"
- 例如"version"(第 2 列)值:“1.2.3”、“4.5.6”、“7.8.9”
| order_id | browser | version |
| 1 | Safari | 1.2.3 |
| 2 | Chrome | 4.5.6 |
| 3 | Firefox | 7.8.9 |
- 选项 3:两列:一列是浏览器名称,另一列是浏览器名称和版本合并在一起
- 例如"browser"(第 1 列)值:"Safari"、"Chrome"、"Firefox"
- 例如"browser_version"(第 2 列)值:"Safari-1.2.3"、"Chrome-4.5.6"、"Firefox-7.8.9"
| order_id | browser | browser_version |
| 1 | Safari | Safari-1.2.3 |
| 2 | Chrome | Chrome-4.5.6 |
| 3 | Firefox | Firefox-7.8.9 |
为一种热编码设置数据值(假设是 CSV 文件,列)的最有益方法是什么?
我想正确的答案可能是测试每个选项并检查结果,但我认为这可能是以前做过的事情,所以我认为值得一问。
我会使用第一个选项。它将给出每对索引(浏览器 | 版本)。
第二个选项将不同浏览器的版本号放在同一列中,而这些数字没有可比性。您可以将 Chrome 版本号与另一个 Chrome 版本号进行比较,但不能将 Chrome 版本号与 Firefox 版本号进行比较。
第三个选项包含第一个选项,还有额外的冗余数据。