PySpark: AttributeError: 'DataFrame' object has no attribute 'forEach'
PySpark: AttributeError: 'DataFrame' object has no attribute 'forEach'
我试图从 hdfs 获取数据并遍历每个数据以对列 _c1 进行分析。
import findspark
findspark.init('/location/spark')
import pyspark
from pyspark import SparkContext
sc = SparkContext()
from pyspark.sql import SQLContext
sql = SQLContext(sc)
df = sql.read.csv('hdfs://namenode:9000/data.csv', header=False, inferSchema= True)
df.show() //works
df.forEach(lambda row: some_analyzer(row['_c1'])) // here is the error
但我收到“AttributeError:'DataFrame' 对象没有属性 'forEach'”错误。
我是 PySpark 的新手。我真的很期待你的帮助。
应该是foreach
。全部小写。
我试图从 hdfs 获取数据并遍历每个数据以对列 _c1 进行分析。
import findspark
findspark.init('/location/spark')
import pyspark
from pyspark import SparkContext
sc = SparkContext()
from pyspark.sql import SQLContext
sql = SQLContext(sc)
df = sql.read.csv('hdfs://namenode:9000/data.csv', header=False, inferSchema= True)
df.show() //works
df.forEach(lambda row: some_analyzer(row['_c1'])) // here is the error
但我收到“AttributeError:'DataFrame' 对象没有属性 'forEach'”错误。
我是 PySpark 的新手。我真的很期待你的帮助。
应该是foreach
。全部小写。