从图创建树结构

Create a tree structure from a graph

我正在尝试找到正确的方法来绘制包含用户通常在不同位置花费的时间信息的数据集。重要的是,有些类别和子类别对我的数据的粒度级别越来越高(例如,60% 的人处于 "home",而这 40% 的人处于 "living room")。我知道 TreeMaps 可以显示我需要的信息和关系,但我被要求对数据进行 "network" 可视化。

我特别要寻找的是 Python 中的一种绘图方法,它允许我使用节点(更好的是,节点标签)根据下降的用户数量自动调整大小来可视化我的数据在其类别内。重要的是,所有 child 节点计数也将计入 parent 节点中(因此树状图并不是真正的选择,因为我需要在每个分支点显示信息)。

我的数据看起来有点像这样(请注意,某些位置比其他位置更精细):

| ID | BUILDING | subcat01  | subcat02 |
----------------------------------------
| 00 |  home    | kitchen   | fridge   |
| 01 |  office  | desk      | NaN      |
| 02 |  office  | reception | NaN      |
| 03 |  home    | bedroom   | bed      |
| 04 |  home    | yard      | NaN      |
| 05 |  home    | livingroom| couch    |
| 06 |  office  | conf_room | NaN      |
| 07 | outdoors | NaN       | NaN      |
|... | ...      | ...       | ...      |

要大致了解我想要制作的内容,请参见下图。重要的是我能够根据它们的 children 的总和来调整节点的大小(如果它是一个端节点,则只是它们自己)。我将 运行 使用不同的过滤器进行大量迭代,因此我需要一些可以轻松迭代的东西,而不是仅仅手动编码每个图形的外观。

关于哪些 Python 库可以最好地完成此任务有什么建议吗?我已经简要地研究了 networkX, graph-tool, and etetoolkit,但我不确定它们是否完全具有我正在寻找的功能。

这是我想要制作的内容的粗略估计:

要生成图形,您可以将行设置为有向图的路径。一种简单的方法是定义一个 pandas 数据框并堆叠以删除缺失值:

import networkx as nx
from networkx.drawing.nx_agraph import graphviz_layout
from pylab import rcParams
import pandas as pd
#df = pd.read_csv....
paths = df.loc[:,'BUILDING':].stack().groupby(level=0).agg(list).values.tolist()  
# [['home', 'kitchen', 'fridge'], ['office', 'desk'], ['office', 'reception'],...

请注意,堆栈在这里很有用,因为它忽略了 NaN,然后​​我们可以在索引上 gorupby 并聚合为列表。然后创建一个 directed graph and set the paths with nx.add_path:

G = nx.DiGraph()
for path in paths:
    nx.add_path(G, path)

现在要将图形可视化为 树状 布局,我们可以使用 graphviz_layout,它基本上是 pygraphviz_layout 的包装器:

rcParams['figure.figsize'] = 14, 10
pos=graphviz_layout(G, prog='dot')
nx.draw(G, pos=pos,
        node_color='lightgreen', 
        node_size=1500,
        with_labels=True, 
        arrows=True)

如果您想为所有建筑物添加一个公共 source 节点,您可以在 ID 之后插入一个名为 ALL 的列:

df.insert(1, 'ALL', 'ALL')
paths = df.loc[:,'ALL':].stack().groupby(level=0).agg(list).values.tolist()  

然后像上面那样做,你现在会得到:

请注意,还有其他几个 graphviz 布局程序可能更像您的想法。例如 circo:

pos=graphviz_layout(G, prog='circo')
nx.draw(G, pos=pos,
        node_color='lightgreen', 
        node_size=1500,
        with_labels=True, 
        arrows=True)

也许 ETE 软件包可以帮助您。 ETE 是一个 python 包,除其他外,用于程序化树渲染和可视化。