在数据框上获取 CSV。使用 pyspark

Taking up CSV on a data frame . Using pyspark

我必须读取 HDFS 中的文件并将其转换为数据帧。我正在执行以下步骤。却无法前进。需要一些帮助。

from pyspark.sql import SparkSession
stock1 = spark.read.csv("/FileStore/tables/stockdata/companylist_noheader.csv")

当我这样做时,我得到以下输出

The output

但实际的csv文件如下 The input

求推荐。我知道我们有一个 |分隔但是当我使用地图函数时出现以下错误 attributeError: 'DataFrame' 对象没有属性 'map'

一旦你得到你的 DataFrame 转换成 RDD 然后使用地图转换。

您无法映射 DataFrame,但可以将 DataFrame 转换为 RDD。通过 yourdf.rdd.map(....)

映射

这就是你遇到

的原因
attributeError: 'DataFrame' object has no attribute 'map'