为什么我们说 mapreduce 比传统方法能更好地解决 "Paper reference" 问题?

Why we say map-reduce solves "Paper reference" problems better than traditional methods?

据说当我们希望对论文引用进行统计时,map-reduce 可以比传统方式做得更好,因为传统方式涉及很多 memory/disk 个开关。我不太明白为什么传统方法不好。

假设我 运行 map-reduce 只在一台机器上(没有集群),它是否仍然比传统方法更好地解决了一些问题?

或者换句话说,"map-reduce"本身的算法范式,从算法的角度来看,在解决问题上是否有一些优势?

谢谢。

At best M/R 允许重新应用与高级统计包相同的算法。但更典型的是,在使用的算法中会做出一些牺牲——以分布式方式允许 运行。 Map/Reduce 没有提供 "magic" 方面 - 比如说 - 在交叉采样(或任何其他采样方法)期间提供更均匀的随机分布。

对于适合内存的小型数据集,M/R 通常比您的传统包差 - 由于在可扩展性算法中做出了妥协。当使用禁止在单台机器上完全采样的大型数据集时,您开始看到 M/R 的优势。使用 R / Matlab / SAS 通常需要下采样 - 并且可能按顺序或幅度进行。