将 daframe 输出为 pyspark 中的列表
output daframe as lists in pyspark
我从 url 下载了一个 csv 文件并将其保存为 pyspark 中的数据框。现在我想将此数据框的每一行打印为列表。前 5 行应如下所示:
[['item', 'item', 'item', 'item'],
['item', 'item', 'item'],
['item'],
['item', 'item', 'item', 'item'],
['item',
'item',
'item',
'item']]
到目前为止我已经完成了(这里没有显示我的文件路径):
from pyspark import SparkContext
sc=SparkContext.getOrCreate()
text_file = sc.textFile("https://.../.../.../.../mydata.csv")
我不知道从这部分开始要做什么...我尝试了很多方法都没有用。有人可以帮忙吗?
尝试使用以下逻辑 -
rdd = sc.textFile("<Your File Path>")
rdd.map(lambda x: x.split('\n')).collect()
[['citrus fruit,semi-finished bread,margarine,ready soups'],
['tropical fruit,yogurt,coffee'],
['whole milk'],
['pip fruit,yogurt,cream cheese ,meat spreads'],
['other vegetables,whole milk,condensed milk,long life bakery product']
]
我从 url 下载了一个 csv 文件并将其保存为 pyspark 中的数据框。现在我想将此数据框的每一行打印为列表。前 5 行应如下所示:
[['item', 'item', 'item', 'item'],
['item', 'item', 'item'],
['item'],
['item', 'item', 'item', 'item'],
['item',
'item',
'item',
'item']]
到目前为止我已经完成了(这里没有显示我的文件路径):
from pyspark import SparkContext
sc=SparkContext.getOrCreate()
text_file = sc.textFile("https://.../.../.../.../mydata.csv")
我不知道从这部分开始要做什么...我尝试了很多方法都没有用。有人可以帮忙吗?
尝试使用以下逻辑 -
rdd = sc.textFile("<Your File Path>")
rdd.map(lambda x: x.split('\n')).collect()
[['citrus fruit,semi-finished bread,margarine,ready soups'],
['tropical fruit,yogurt,coffee'],
['whole milk'],
['pip fruit,yogurt,cream cheese ,meat spreads'],
['other vegetables,whole milk,condensed milk,long life bakery product']
]