如何将两个数据集与 BusinessID 合并并获得最终数据集?
How do I merge two datasets with on BusinessID and get the final dataset?
是两个数据集business和review文件。如何对business_id上的多条评论进行分组以获得用户给出的所有评论进入一篇文章。
如何合并具有BusinessID的数据集并得到最终数据集如图下面?
如何使用 Pandas 库执行此操作?
您可以将 df1
(top-left) 与 .groupby
版本的 df2
(top-right) 合并:
df3 = df1.merge(df2.groupby('Business_id')['Review_text'].apply(list).reset_index(),
how='left', on='Business_id').rename({'Review_text':'All_reviews'}, axis=1)
Out[1]:
Business_id category star Review_count All_reviews
0 1 shopping 3.5 3 [Text_1, Text_2, Text_4]
1 2 restaurant 5.0 1 [Text_3, Text_5]
2 3 Home services 4.0 6 NaN
是两个数据集business和review文件。如何对business_id上的多条评论进行分组以获得用户给出的所有评论进入一篇文章。
如何合并具有BusinessID的数据集并得到最终数据集如图下面?
如何使用 Pandas 库执行此操作?
您可以将 df1
(top-left) 与 .groupby
版本的 df2
(top-right) 合并:
df3 = df1.merge(df2.groupby('Business_id')['Review_text'].apply(list).reset_index(),
how='left', on='Business_id').rename({'Review_text':'All_reviews'}, axis=1)
Out[1]:
Business_id category star Review_count All_reviews
0 1 shopping 3.5 3 [Text_1, Text_2, Text_4]
1 2 restaurant 5.0 1 [Text_3, Text_5]
2 3 Home services 4.0 6 NaN