为什么我们说 mapreduce 比传统方法能更好地解决 "Paper reference" 问题？

Why we say map-reduce solves "Paper reference" problems better than traditional methods?

据说当我们希望对论文引用进行统计时，map-reduce 可以比传统方式做得更好，因为传统方式涉及很多 memory/disk 个开关。我不太明白为什么传统方法不好。

假设我运行 map-reduce 只在一台机器上（没有集群），它是否仍然比传统方法更好地解决了一些问题？

或者换句话说，"map-reduce"本身的算法范式，从算法的角度来看，在解决问题上是否有一些优势？

谢谢。

At best M/R 允许重新应用与高级统计包相同的算法。但更典型的是，在使用的算法中会做出一些牺牲——以分布式方式允许运行。 Map/Reduce 没有提供 "magic" 方面 - 比如说 - 在交叉采样（或任何其他采样方法）期间提供更均匀的随机分布。

对于适合内存的小型数据集，M/R 通常比您的传统包差 - 由于在可扩展性算法中做出了妥协。当使用禁止在单台机器上完全采样的大型数据集时，您开始看到 M/R 的优势。使用 R / Matlab / SAS 通常需要下采样 - 并且可能按顺序或幅度进行。