电子商务网站分析中的特征工程
Feature Engineering in Ecommerce Web Analytics
我是这个论坛的新手,第一次提问。我正在为一个项目处理电子商务数据集 - 包括这两个变量 - 页面访问 (0/1) 和
exits (num var with values -1,0,2,3 ......) 指示唯一 ID 退出特定页面的次数。有 6 个这样的信息页面。
页面退出中的-1是没有页面访问的页面。但是,我正在使用页面退出来计算其他指标,例如退出率,我不确定如何 remove/replace -1 而不会丢失信息或以其他方式放置它。
我不能将其设置为 0 - bcos 这意味着没有页面退出/访问者停留在页面上。即使我删除并创建了一个分类变量——表示没有访问、停留、退出……我仍然不知道用什么来替换 -1。
我该怎么做...我需要在这里做任何特征工程吗?
创建一个特征,以二进制 1/0 表示用户是否从未访问过该页面,然后只有来自 0 - n[ 的列=18=] 用于出口数量(如果出口为 -1,则为 1,否则为 0)。在创建附加列后,我将出口从 -1 设置为 0。
但是,我认为您需要更多地考虑 -1 的含义(或提供更多信息),当您的预期算法将 运行?您的数据是否存在多个页面,-1 表示他们从未访问过该页面?
我是这个论坛的新手,第一次提问。我正在为一个项目处理电子商务数据集 - 包括这两个变量 - 页面访问 (0/1) 和 exits (num var with values -1,0,2,3 ......) 指示唯一 ID 退出特定页面的次数。有 6 个这样的信息页面。
页面退出中的-1是没有页面访问的页面。但是,我正在使用页面退出来计算其他指标,例如退出率,我不确定如何 remove/replace -1 而不会丢失信息或以其他方式放置它。 我不能将其设置为 0 - bcos 这意味着没有页面退出/访问者停留在页面上。即使我删除并创建了一个分类变量——表示没有访问、停留、退出……我仍然不知道用什么来替换 -1。
我该怎么做...我需要在这里做任何特征工程吗?
创建一个特征,以二进制 1/0 表示用户是否从未访问过该页面,然后只有来自 0 - n[ 的列=18=] 用于出口数量(如果出口为 -1,则为 1,否则为 0)。在创建附加列后,我将出口从 -1 设置为 0。
但是,我认为您需要更多地考虑 -1 的含义(或提供更多信息),当您的预期算法将 运行?您的数据是否存在多个页面,-1 表示他们从未访问过该页面?