如何格式化从字典转换的Dataframe

How to format a Dataframe converted from a dictionary

我对 python + 总体编码还很陌生,我对 pandas 中的数据帧有疑问。

我正在阅读亚马逊评论文件(文件可在此处找到:http://snap.stanford.edu/data/web-Amazon-links.html)并希望根据数据创建数据框。

我已经能够将评论转换为字典,并将其设置为数据框,但输出为每个列值提供了 3 个单独的数据框。

如何使用 column_names=["Names",Prices","Number of Scores","Mean Scores"] 和行 =[[=28 将三个数据帧合并为一个=]:[价格,num scores, mean score]

我认为问题是空格或 \n。但是,我在弄清楚在哪里拆分空白时遇到了问题。我以为我已经在我的代码开头将评论分开了。

抱歉,如果这是一个愚蠢的问题,我现在很迷茫。谢谢

import pandas as pd
import statistics 
#!pip install pandas==0.23.4

data = open('Pet_Supplies.txt','r')
data_text = data.read()
data_split = data_text.strip().split('\n\n')
data.close()
review_dict={}
for x in data_split:  
  names_obj=re.search('(product/title:\s)(.*)',x)
  names=names_obj.group(2)
  prices_obj = re.search('product/price:\s(.*)\n',x) 
  prices = prices_obj.group(1)
  score_obj = re.search('\d\.\d\n',x)
  scores=score_obj.group(0)
  if names in review_dict:
    num_reviews = review_dict[names][1]+1
    sum_scores = float(scores)*float(num_reviews)
    mean_score = sum_scores/num_reviews
    review_dict[names]=[prices,num_reviews,mean_score]
  else:
       review_dict[names]=[prices,1,float(scores)]
df = pd.DataFrame.from_dict(review_dict, orient='index',columns=("Price","Number of Reviews","Mean Price")).rename_axis('Names')
print(df)
``

I expected the results to be:


Name             Price    Num Reviews  Mean Score

Product_1         8.0              14            4.3


My actual code gives me:

                                                     Price  \
Names                                                         
Orbee Tuff Ball Orange - SMALL                         6.95  

                                                     Number of Reviews  \
Names                                                                   
Orbee Tuff Ball Orange - SMALL                         4 

                                                     Mean Price  
Names                                                           
Orbee Tuff Ball Orange - SMALL                         5.0

明确你想要做的是改变显示选项来查看数据框,而不是改变数据框本身,这对我来说很好。

如果您希望在将数据框打印到屏幕时在一行中看到每一行数据框,您可以更改 pandas 显示选项。例如,使用 pd.set_option('display.width', 180) 将使数据帧 运行 完全穿过标准尺寸的显示器(默认宽度为 90,屏幕的一半,以便可以并排查看两个输出)。

也许您确实想要更改数据框。您看到 "Names" 信息重复的原因是因为它是数据帧的索引。如果您从数据帧的索引中删除 "Names" 并将其设为一列,它将以不同的方式打印。您可以使用 df = df.reset_index() 来做到这一点。现在索引将只是一系列数字,"Names" 将是数据中的一列。尝试一下,看看之后数据框是如何打印的。继续玩,但归根结底,这些只是基于您正在做的事情的个人喜好。