Databricks - Pyspark 与 Pandas

Databricks - Pyspark vs Pandas

我有一个 python 脚本，我在其中使用 pandas 作为我的 transformations/manipulation 数据。我知道我有一些“低效”的代码块。我的问题是，如果 pyspark 应该快得多，我可以只使用 pyspark 而不是 pandas 替换这些块，还是我需要所有东西都在 pyspark 中？如果我在 Databricks 中，这真的很重要，因为它已经在 spark 集群上了？

如果数据足够小，您可以使用 pandas 来处理它，那么您可能不需要 pyspark。当您的数据量如此之大以至于它无法放入一台机器的内存中时，Spark 很有用，因为它可以执行分布式计算。话虽这么说，如果计算足够复杂，可以从大量并行化中受益，那么您可以看到使用 pyspark 的效率提升。与 pandas 相比，我对 pyspark 的 API 更满意，所以我可能最终还是会使用 pyspark，但是您是否会看到效率提升在很大程度上取决于问题。

Pandas 运行在单台机器上运行，而 PySpark 运行在多台机器上运行。如果您正在处理处理更大数据集的机器学习应用程序，PySpark 是最合适的，它可以比 Pandas.

快很多倍 (100x) 处理操作

PySpark 在处理大型数据集方面非常高效。但是您可以在预处理和数据探索之后将 spark 数据帧转换为 Pandas 数据帧，以使用 sklearn 训练机器学习模型。

Databricks - Pyspark 与 Pandas

Databricks - Pyspark vs Pandas

python

apache-spark

pyspark

databricks