如何格式化从字典转换的Dataframe
How to format a Dataframe converted from a dictionary
我对 python + 总体编码还很陌生,我对 pandas 中的数据帧有疑问。
我正在阅读亚马逊评论文件(文件可在此处找到:http://snap.stanford.edu/data/web-Amazon-links.html)并希望根据数据创建数据框。
我已经能够将评论转换为字典,并将其设置为数据框,但输出为每个列值提供了 3 个单独的数据框。
如何使用 column_names=["Names",Prices","Number of Scores","Mean Scores"] 和行 =[[=28 将三个数据帧合并为一个=]:[价格,num scores, mean score]
我认为问题是空格或 \n。但是,我在弄清楚在哪里拆分空白时遇到了问题。我以为我已经在我的代码开头将评论分开了。
抱歉,如果这是一个愚蠢的问题,我现在很迷茫。谢谢
import pandas as pd
import statistics
#!pip install pandas==0.23.4
data = open('Pet_Supplies.txt','r')
data_text = data.read()
data_split = data_text.strip().split('\n\n')
data.close()
review_dict={}
for x in data_split:
names_obj=re.search('(product/title:\s)(.*)',x)
names=names_obj.group(2)
prices_obj = re.search('product/price:\s(.*)\n',x)
prices = prices_obj.group(1)
score_obj = re.search('\d\.\d\n',x)
scores=score_obj.group(0)
if names in review_dict:
num_reviews = review_dict[names][1]+1
sum_scores = float(scores)*float(num_reviews)
mean_score = sum_scores/num_reviews
review_dict[names]=[prices,num_reviews,mean_score]
else:
review_dict[names]=[prices,1,float(scores)]
df = pd.DataFrame.from_dict(review_dict, orient='index',columns=("Price","Number of Reviews","Mean Price")).rename_axis('Names')
print(df)
``
I expected the results to be:
Name Price Num Reviews Mean Score
Product_1 8.0 14 4.3
My actual code gives me:
Price \
Names
Orbee Tuff Ball Orange - SMALL 6.95
Number of Reviews \
Names
Orbee Tuff Ball Orange - SMALL 4
Mean Price
Names
Orbee Tuff Ball Orange - SMALL 5.0
明确你想要做的是改变显示选项来查看数据框,而不是改变数据框本身,这对我来说很好。
如果您希望在将数据框打印到屏幕时在一行中看到每一行数据框,您可以更改 pandas 显示选项。例如,使用 pd.set_option('display.width', 180)
将使数据帧 运行 完全穿过标准尺寸的显示器(默认宽度为 90,屏幕的一半,以便可以并排查看两个输出)。
也许您确实想要更改数据框。您看到 "Names" 信息重复的原因是因为它是数据帧的索引。如果您从数据帧的索引中删除 "Names" 并将其设为一列,它将以不同的方式打印。您可以使用 df = df.reset_index()
来做到这一点。现在索引将只是一系列数字,"Names" 将是数据中的一列。尝试一下,看看之后数据框是如何打印的。继续玩,但归根结底,这些只是基于您正在做的事情的个人喜好。
我对 python + 总体编码还很陌生,我对 pandas 中的数据帧有疑问。
我正在阅读亚马逊评论文件(文件可在此处找到:http://snap.stanford.edu/data/web-Amazon-links.html)并希望根据数据创建数据框。
我已经能够将评论转换为字典,并将其设置为数据框,但输出为每个列值提供了 3 个单独的数据框。
如何使用 column_names=["Names",Prices","Number of Scores","Mean Scores"] 和行 =[[=28 将三个数据帧合并为一个=]:[价格,num scores, mean score]
我认为问题是空格或 \n。但是,我在弄清楚在哪里拆分空白时遇到了问题。我以为我已经在我的代码开头将评论分开了。
抱歉,如果这是一个愚蠢的问题,我现在很迷茫。谢谢
import pandas as pd
import statistics
#!pip install pandas==0.23.4
data = open('Pet_Supplies.txt','r')
data_text = data.read()
data_split = data_text.strip().split('\n\n')
data.close()
review_dict={}
for x in data_split:
names_obj=re.search('(product/title:\s)(.*)',x)
names=names_obj.group(2)
prices_obj = re.search('product/price:\s(.*)\n',x)
prices = prices_obj.group(1)
score_obj = re.search('\d\.\d\n',x)
scores=score_obj.group(0)
if names in review_dict:
num_reviews = review_dict[names][1]+1
sum_scores = float(scores)*float(num_reviews)
mean_score = sum_scores/num_reviews
review_dict[names]=[prices,num_reviews,mean_score]
else:
review_dict[names]=[prices,1,float(scores)]
df = pd.DataFrame.from_dict(review_dict, orient='index',columns=("Price","Number of Reviews","Mean Price")).rename_axis('Names')
print(df)
``
I expected the results to be:
Name Price Num Reviews Mean Score
Product_1 8.0 14 4.3
My actual code gives me:
Price \
Names
Orbee Tuff Ball Orange - SMALL 6.95
Number of Reviews \
Names
Orbee Tuff Ball Orange - SMALL 4
Mean Price
Names
Orbee Tuff Ball Orange - SMALL 5.0
明确你想要做的是改变显示选项来查看数据框,而不是改变数据框本身,这对我来说很好。
如果您希望在将数据框打印到屏幕时在一行中看到每一行数据框,您可以更改 pandas 显示选项。例如,使用 pd.set_option('display.width', 180)
将使数据帧 运行 完全穿过标准尺寸的显示器(默认宽度为 90,屏幕的一半,以便可以并排查看两个输出)。
也许您确实想要更改数据框。您看到 "Names" 信息重复的原因是因为它是数据帧的索引。如果您从数据帧的索引中删除 "Names" 并将其设为一列,它将以不同的方式打印。您可以使用 df = df.reset_index()
来做到这一点。现在索引将只是一系列数字,"Names" 将是数据中的一列。尝试一下,看看之后数据框是如何打印的。继续玩,但归根结底,这些只是基于您正在做的事情的个人喜好。