从 python 中的单个 csv 文件创建嵌套词典列表

Question

我有一个具有以下结构的 csv 文件：

team,tournament,player
Team 1,spring tournament,Rebbecca Cardone
Team 1,spring tournament,Salina Youngblood
Team 1,spring tournament,Catarina Corbell
Team 1,summer tournament,Cara Mejias
Team 1,summer tournament,Catarina Corbell
...
Team 10, spring tournament,Jessi Ravelo

我想创建一个包含玩家字典列表的嵌套字典（团队、锦标赛）。期望的结果类似于：

{'data': 
   {Team 1:
       {'spring tournament': 
               {'players': [
                   {name: Rebecca Cardone}, 
                   {name: Salina Youngblood},
                   {name: Catarina Corbell}]
        },
        {'summer tournament': 
               {'players': [
                   {name: Cara Mejias}, 
                   {name: Catarina Corbell}]
               }
        }

   },
    ...
  {Team 10:
       {'spring tournament': 
               {'players': [
                   {name: Jessi Ravelo}]
                }
       }
   }
}

我一直在努力把它格式化成这样。我已经能够成功嵌套第一级（团队# --> 锦标赛）但我无法嵌套第二级。目前，我的代码如下所示：

d = {}
header = True
with open("input.csv") as f:
    for line in f.readlines():
        if header:
            header = False
            continue
        team, tournament, player = line.strip().split(",")
        d_team = d.get(team,{})
        d_tournament = d_team.get(tournament, {})
        d_player = d_tournament.get('player',['name'])
        d_player.append(player)
        d_tournament['player'] = d_tournament
        d_team[tournament] = d_tournament
        d[team] = d_team
print(d)

修复我的代码以便创建嵌套字典的下一步是什么？

Answer 1

您的实施存在一些问题：

你做到了 d_player = d_tournament.get('player',['name'])。但是你实际上想要获取名为 players 的键，这应该是一个字典列表。这些词典中的每一个都必须具有 {"name": "Player's Name"} 的形式。所以你要 l_player = d_tournament.get('players',[]) （默认为空列表），然后执行 l_player.append({"name": player}) （我将其重命名为 l_player 因为它是列表，而不是字典）。
你做到了 d_tournament['player'] = d_tournament。我怀疑你的意思是 d_tournament['player'] = d_player
去除行中元素的空白。执行 team, tournament, player = (word.strip() for word in line.split(","))

进行这些更改后，您的代码可以正常工作

我强烈建议您使用 csv.reader class 来读取您的 CSV 文件，而不是手动用逗号分隔行。

此外，由于 python 的容器（列表和字典）包含对其内容的引用，您只需添加一次容器，然后使用 mydict["key"] = value 或 mylist.append() 修改它，这些更改也将反映在父容器中。由于这种行为，您不需要像使用 d_team[tournament] = d_tournament

那样在循环中重复分配这些东西

allteams = dict()
hasHeader = True
with open("input.csv") as f:
    csvreader = csv.reader(f)
    if hasHeader: next(csvreader) # Consume one line if a header exists

    # Iterate over the rows, and unpack each row into three variables
    for team_name, tournament_name, player_name in csvreader:
        # If the team hasn't been processed yet, create a new dict for it
        if team_name not in allteams:
            allteams[team_name] = dict()

        # Get the dict object that holds this team's information
        team = allteams[team_name]

        # If the tournament hasn't been processed already for this team, create a new dict for it in the team's dict
        if tournament_name not in team:
            team[tournament_name] = {"players": []}

        # Get the tournament dict object
        tournament = team[tournament_name]

        # Add this player's information to the tournament dict's "player" list
        tournament["players"].append({"name": player_name})

# Add all teams' data to the "data" key in our result dict
result = {"data": allteams}
print(result)

这给了我们想要的（美化输出）：

{
    'data': {
        'Team 1': {
            'spring tournament': {
                'players': [
                    { 'name': 'Rebbecca Cardone' },
                    { 'name': 'Salina Youngblood' },
                    { 'name': 'Catarina Corbell' }
                ]
            },
            'summer tournament': {
                'players': [
                    { 'name': 'Cara Mejias' },
                    { 'name': 'Catarina Corbell' }
                ]
            }
        },
        'Team 10': {
            ' spring tournament': {
                'players': [
                    { 'name': 'Jessi Ravelo' }
                ]
            }
        }
    }
}

Answer 2

你描述的示例字典是不可能的（如果你想在键“Team 1”下有多个字典，把它们放在一个列表中），但是这个片段：

if __name__ == '__main__':
    your_dict = {}
    with open("yourfile.csv") as file:
        all_lines = file.readlines()

    data_lines = all_lines[1:]  #  Skipping "team,tournament,player" line

    for line in data_lines:
        line = line.strip()  # Remove \n
        team, tournament_type, player_name = line.split(",")
        team_dict = your_dict.get(team, {})  # e.g. "Team 1"

        tournaments_of_team_dict = team_dict.get(tournament_type, {'players': []})  # e.g. "spring_tournament"

        tournaments_of_team_dict["players"].append({'name': player_name})

        team_dict[tournament_type] = tournaments_of_team_dict
        your_dict[team] = team_dict

    your_dict = {'data': your_dict}

对于这个例子yourfile.csv:

team,tournament,player
Team 1,spring tournament,Rebbecca Cardone
Team 1,spring tournament,Salina Youngblood
Team 2,spring tournament,Catarina Corbell
Team 1,summer tournament,Cara Mejias
Team 2,summer tournament,Catarina Corbell

给出以下内容：

{
  "data": {
    "Team 1": {
      "spring tournament": {
        "players": [
          {
            "name": "Rebbecca Cardone"
          },
          {
            "name": "Salina Youngblood"
          }
        ]
      },
      "summer tournament": {
        "players": [
          {
            "name": "Cara Mejias"
          }
        ]
      }
    },
    "Team 2": {
      "spring tournament": {
        "players": [
          {
            "name": "Catarina Corbell"
          }
        ]
      },
      "summer tournament": {
        "players": [
          {
            "name": "Catarina Corbell"
          }
        ]
      }
    }
  }
}

Process finished with exit code 0

Answer 3

也许我忽略了一些东西，但你不能使用：

df.groupby(['team','tournament'])['player'].apply(list).reset_index().to_json(orient='records')

Answer 4

您可以这样处理：

from collections import defaultdict
import csv
from pprint import pprint

d = defaultdict(dict)

with open('f00.txt', 'r') as f:
    reader = csv.DictReader(f)
    for row in reader:
        d[ row['team'] ].setdefault(row['tournament'], []
                                    ).append(row['player'])

pprint(dict(d))

打印：

{'Team 1': {'spring tournament': ['Rebbecca Cardone',
                                  'Salina Youngblood',
                                  'Catarina Corbell'],
            'summer tournament': ['Cara Mejias', 'Catarina Corbell']},
 'Team 10': {' spring tournament': ['Jessi Ravelo']}}

从 python 中的单个 csv 文件创建嵌套词典列表

Create a list of nested dictionaries from a single csv file in python

python

csv

dictionary

nested-lists

dictionary-comprehension