Map Reduce - 如何在单个作业中分组和聚合多个属性
Map Reduce - How to group and aggregate multiple attributes in a single job
我目前在使用 MapReduce 方面遇到了一些困难。
我有以下数据集:
1,John,Computer
2,Anne,Computer
3,John,Mobile
4,Julia,Mobile
5,Jack,Mobile
6,Jack,TV
7,John,Computer
8,Jack,TV
9,Jack,TV
10,Anne,Mobile
11,Anne,Computer
12,Julia,Mobile
现在我想应用带分组的 MapReduce 和
聚合此数据集,以便输出
不仅显示哪个人购买某物的次数,
还有产品是什么,人们订购最多的产品。
所以输出应该是这样的:
John 3 Computer
Anne 3 Mobile
Jack 4 TV
Julia 2 Mobile
我目前对映射器和缩减器的实现
看起来像这样,完美 returns 有多少订单
由个人制作,然而,我真的不知道如何
以获得所需的输出。
static class CountMatchesMapper extends Mapper<Object,Text,Text,IntWritable> {
@Override
protected void map(Object key, Text value, Context ctx) throws IOException, InterruptedException {
String row = value.toString();
String[] row_part = row.split(",");
try{
ctx.write(new Text(row_part[1]), new IntWritable(1));
catch (IOException e) {
}
catch (InterruptedException e) {
}
}
}
}
static class CountMatchesReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context ctx) throws IOException, InterruptedException {
int i = 0;
for (IntWritable value : values) i += value.get();
try{
ctx.write(key, new IntWritable(i));
}
catch (IOException e) {
}
catch (InterruptedException e) {
}
}
}
非常感谢任何有效的解决方案和帮助。
提前致谢!
如果我理解正确的话,我认为第二行输出应该是:
Anne 3 Computer
基于输入。安妮一共购买了 3 件产品:2 台电脑和 1 台手机。
我这里有一个非常基本和简单的方法,它没有考虑边缘情况等,但可以给你一些指导:
static class CountMatchesMapper extends Mapper<LongWritable, Text, Text, Text> {
private Text outputKey = new Text();
private Text outputValue = new Text();
@Override
protected void map(LongWritable key, Text value, Context ctx) throws IOException, InterruptedException {
String row = value.toString();
String[] row_part = row.split(",");
outputKey.set(row_part[1]);
outputValue.set(row_part[2]);
ctx.write(outputKey, outputValue);
}
}
static class CountMatchesReducer extends Reducer<Text, Text, Text, NullWritable> {
private Text output = new Text();
@Override
protected void reduce(Text key, Iterable<Text> values, Context ctx) throws IOException, InterruptedException {
HashMap<String, Integer> productCounts = new HashMap();
int totalProductsBought = 0;
for (Text value : values) {
String productBought = value.toString();
int count = 0;
if (productCounts.containsKey(productBought)) {
count = productCounts.get(productBought);
}
productCounts.put(productBought, count + 1);
totalProductsBought += 1;
}
String topProduct = getTopProductForPerson(productCounts);
output.set(key.toString() + " " + totalProductsBought + " " + topProduct);
ctx.write(output, NullWritable.get());
}
private String getTopProductForPerson(Map<String, Integer> productCounts) {
String topProduct = "";
int maxCount = 0;
for (Map.Entry<String, Integer> productCount : productCounts.entrySet()) {
if (productCount.getValue() > maxCount) {
maxCount = productCount.getValue();
topProduct = productCount.getKey();
}
}
return topProduct;
}
}
以上将给出您描述的输出。
如果您想要一个可以缩放等的适当解决方案,那么您可能需要一个复合键和自定义 GroupComparator。通过这种方式,您也可以添加 Combiner 并使其更加高效。但是,上述方法应该适用于一般情况。
我目前在使用 MapReduce 方面遇到了一些困难。 我有以下数据集:
1,John,Computer
2,Anne,Computer
3,John,Mobile
4,Julia,Mobile
5,Jack,Mobile
6,Jack,TV
7,John,Computer
8,Jack,TV
9,Jack,TV
10,Anne,Mobile
11,Anne,Computer
12,Julia,Mobile
现在我想应用带分组的 MapReduce 和 聚合此数据集,以便输出 不仅显示哪个人购买某物的次数, 还有产品是什么,人们订购最多的产品。
所以输出应该是这样的:
John 3 Computer
Anne 3 Mobile
Jack 4 TV
Julia 2 Mobile
我目前对映射器和缩减器的实现 看起来像这样,完美 returns 有多少订单 由个人制作,然而,我真的不知道如何 以获得所需的输出。
static class CountMatchesMapper extends Mapper<Object,Text,Text,IntWritable> {
@Override
protected void map(Object key, Text value, Context ctx) throws IOException, InterruptedException {
String row = value.toString();
String[] row_part = row.split(",");
try{
ctx.write(new Text(row_part[1]), new IntWritable(1));
catch (IOException e) {
}
catch (InterruptedException e) {
}
}
}
}
static class CountMatchesReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context ctx) throws IOException, InterruptedException {
int i = 0;
for (IntWritable value : values) i += value.get();
try{
ctx.write(key, new IntWritable(i));
}
catch (IOException e) {
}
catch (InterruptedException e) {
}
}
}
非常感谢任何有效的解决方案和帮助。
提前致谢!
如果我理解正确的话,我认为第二行输出应该是:
Anne 3 Computer
基于输入。安妮一共购买了 3 件产品:2 台电脑和 1 台手机。
我这里有一个非常基本和简单的方法,它没有考虑边缘情况等,但可以给你一些指导:
static class CountMatchesMapper extends Mapper<LongWritable, Text, Text, Text> {
private Text outputKey = new Text();
private Text outputValue = new Text();
@Override
protected void map(LongWritable key, Text value, Context ctx) throws IOException, InterruptedException {
String row = value.toString();
String[] row_part = row.split(",");
outputKey.set(row_part[1]);
outputValue.set(row_part[2]);
ctx.write(outputKey, outputValue);
}
}
static class CountMatchesReducer extends Reducer<Text, Text, Text, NullWritable> {
private Text output = new Text();
@Override
protected void reduce(Text key, Iterable<Text> values, Context ctx) throws IOException, InterruptedException {
HashMap<String, Integer> productCounts = new HashMap();
int totalProductsBought = 0;
for (Text value : values) {
String productBought = value.toString();
int count = 0;
if (productCounts.containsKey(productBought)) {
count = productCounts.get(productBought);
}
productCounts.put(productBought, count + 1);
totalProductsBought += 1;
}
String topProduct = getTopProductForPerson(productCounts);
output.set(key.toString() + " " + totalProductsBought + " " + topProduct);
ctx.write(output, NullWritable.get());
}
private String getTopProductForPerson(Map<String, Integer> productCounts) {
String topProduct = "";
int maxCount = 0;
for (Map.Entry<String, Integer> productCount : productCounts.entrySet()) {
if (productCount.getValue() > maxCount) {
maxCount = productCount.getValue();
topProduct = productCount.getKey();
}
}
return topProduct;
}
}
以上将给出您描述的输出。
如果您想要一个可以缩放等的适当解决方案,那么您可能需要一个复合键和自定义 GroupComparator。通过这种方式,您也可以添加 Combiner 并使其更加高效。但是,上述方法应该适用于一般情况。