如何找到 Pig 中单列值的平均值、总和和计数?
How can I find average, sum and count of values of a single column in Pig?
我有一个变量 car_age,它保存整个 CSV 文件中汽车年龄的不同值。我怎样才能取所有值的平均值?我需要用 car_age 值的平均值(或均值)替换异常值。
这是我目前正在做的事情。
training_data= LOAD '/user/All_State_Insurance_Prediction_Dataset/sampled_training_dataset/sampled_training_set';
A1 = foreach training_data generate car_age;
B1= Distinct A1;
B1 保存不同的车龄值。如何找到 B1 中值的平均值、总和和计数?我没有使用 Group By,因为我需要在单个值列表上完成这些操作。
试试这个来计算平均值
training_data= LOAD '/user/All_State_Insurance_Prediction_Dataset/sampled_training_dataset/sampled_training_set' USING PigStorage();
A1 = foreach training_data generate car_age;
B1= Distinct A1;
B1_grouped = GROUP B1 all;
B1_avg = FOREACH B1_grouped GENERATE AVG(B1);
类似地,您可以对 SUM 和其他聚合函数执行此操作
我有一个变量 car_age,它保存整个 CSV 文件中汽车年龄的不同值。我怎样才能取所有值的平均值?我需要用 car_age 值的平均值(或均值)替换异常值。 这是我目前正在做的事情。
training_data= LOAD '/user/All_State_Insurance_Prediction_Dataset/sampled_training_dataset/sampled_training_set';
A1 = foreach training_data generate car_age;
B1= Distinct A1;
B1 保存不同的车龄值。如何找到 B1 中值的平均值、总和和计数?我没有使用 Group By,因为我需要在单个值列表上完成这些操作。
试试这个来计算平均值
training_data= LOAD '/user/All_State_Insurance_Prediction_Dataset/sampled_training_dataset/sampled_training_set' USING PigStorage();
A1 = foreach training_data generate car_age;
B1= Distinct A1;
B1_grouped = GROUP B1 all;
B1_avg = FOREACH B1_grouped GENERATE AVG(B1);
类似地,您可以对 SUM 和其他聚合函数执行此操作