PySpark

Question

我正在尝试遍历以下输出的第一列的每一行。

假设 table 员工有 3 列：名字、中间名、姓氏

table1=spark.sql("Select * from Employees")

Answer 1

如果你的table足够小，那么collect最好table1.select('FirstName').collect()

但是，请记住 collect 不可扩展，因为它使用单台机器而不是将工作负载分配给工作人员。

PySpark - 获取第一列的每一行