Databricks - Pyspark 与 Pandas
Databricks - Pyspark vs Pandas
我有一个 python 脚本,我在其中使用 pandas 作为我的 transformations/manipulation 数据。我知道我有一些“低效”的代码块。我的问题是,如果 pyspark 应该快得多,我可以只使用 pyspark 而不是 pandas 替换这些块,还是我需要所有东西都在 pyspark 中?如果我在 Databricks 中,这真的很重要,因为它已经在 spark 集群上了?
如果数据足够小,您可以使用 pandas 来处理它,那么您可能不需要 pyspark。当您的数据量如此之大以至于它无法放入一台机器的内存中时,Spark 很有用,因为它可以执行分布式计算。话虽这么说,如果计算足够复杂,可以从大量并行化中受益,那么您可以看到使用 pyspark 的效率提升。与 pandas 相比,我对 pyspark 的 API 更满意,所以我可能最终还是会使用 pyspark,但是您是否会看到效率提升在很大程度上取决于问题。
Pandas 运行 在单台机器上运行,而 PySpark 运行 在多台机器上运行。如果您正在处理处理更大数据集的机器学习应用程序,PySpark 是最合适的,它可以比 Pandas.
快很多倍 (100x) 处理操作
PySpark 在处理大型数据集方面非常高效。但是您可以在预处理和数据探索之后将 spark 数据帧转换为 Pandas 数据帧,以使用 sklearn 训练机器学习模型。
我有一个 python 脚本,我在其中使用 pandas 作为我的 transformations/manipulation 数据。我知道我有一些“低效”的代码块。我的问题是,如果 pyspark 应该快得多,我可以只使用 pyspark 而不是 pandas 替换这些块,还是我需要所有东西都在 pyspark 中?如果我在 Databricks 中,这真的很重要,因为它已经在 spark 集群上了?
如果数据足够小,您可以使用 pandas 来处理它,那么您可能不需要 pyspark。当您的数据量如此之大以至于它无法放入一台机器的内存中时,Spark 很有用,因为它可以执行分布式计算。话虽这么说,如果计算足够复杂,可以从大量并行化中受益,那么您可以看到使用 pyspark 的效率提升。与 pandas 相比,我对 pyspark 的 API 更满意,所以我可能最终还是会使用 pyspark,但是您是否会看到效率提升在很大程度上取决于问题。
Pandas 运行 在单台机器上运行,而 PySpark 运行 在多台机器上运行。如果您正在处理处理更大数据集的机器学习应用程序,PySpark 是最合适的,它可以比 Pandas.
快很多倍 (100x) 处理操作PySpark 在处理大型数据集方面非常高效。但是您可以在预处理和数据探索之后将 spark 数据帧转换为 Pandas 数据帧,以使用 sklearn 训练机器学习模型。