将 daframe 输出为 pyspark 中的列表

Question

我从 url 下载了一个 csv 文件并将其保存为 pyspark 中的数据框。现在我想将此数据框的每一行打印为列表。前 5 行应如下所示：

[['item', 'item', 'item', 'item'],
  ['item', 'item', 'item'],
  ['item'],
  ['item', 'item', 'item', 'item'],
  ['item',
   'item',
   'item',
   'item']]

到目前为止我已经完成了（这里没有显示我的文件路径）：

from pyspark import SparkContext

sc=SparkContext.getOrCreate()

text_file = sc.textFile("https://.../.../.../.../mydata.csv")

我不知道从这部分开始要做什么...我尝试了很多方法都没有用。有人可以帮忙吗？

Answer 1

尝试使用以下逻辑 -

rdd = sc.textFile("<Your File Path>")
rdd.map(lambda x: x.split('\n')).collect()

[['citrus fruit,semi-finished bread,margarine,ready soups'],
 ['tropical fruit,yogurt,coffee'],
 ['whole milk'],
 ['pip fruit,yogurt,cream cheese ,meat spreads'],
 ['other vegetables,whole milk,condensed milk,long life bakery product']
]

将 daframe 输出为 pyspark 中的列表

output daframe as lists in pyspark

python

pyspark