PySpark: AttributeError: 'DataFrame' object has no attribute 'forEach'

PySpark: AttributeError: 'DataFrame' object has no attribute 'forEach'

我试图从 hdfs 获取数据并遍历每个数据以对列 _c1 进行分析。

import findspark
findspark.init('/location/spark')
import pyspark
from pyspark import SparkContext
sc = SparkContext()
from pyspark.sql import SQLContext
sql = SQLContext(sc)

df = sql.read.csv('hdfs://namenode:9000/data.csv', header=False, inferSchema= True)
df.show() //works
df.forEach(lambda row: some_analyzer(row['_c1'])) // here is the error

但我收到“AttributeError:'DataFrame' 对象没有属性 'forEach'”错误。

我是 PySpark 的新手。我真的很期待你的帮助。

应该是foreach。全部小写。