将具有属性和边的节点从 DataFrame 加载到 NetworkX
Load nodes with attributes and edges from DataFrame to NetworkX
我是使用 Python 处理图形的新手:NetworkX。到目前为止,我一直在使用 Gephi。那里的标准步骤(但不是唯一可能的)是:
从table/spreadsheet加载节点信息;其中一列应该是 ID,其余列是关于节点的元数据(节点是人,所以性别,组......通常用于着色)。喜欢:
id;NormalizedName;Gender
per1;Jesús;male
per2;Abraham;male
per3;Isaac;male
per4;Jacob;male
per5;Judá;male
per6;Tamar;female
...
然后也从 table/spreadsheet 加载边,使用与节点电子表格的列 ID 中相同的节点名称,通常有四列(目标、源、重量和类型):
Target;Source;Weight;Type
per1;per2;3;Undirected
per3;per4;2;Undirected
...
这是我拥有的两个数据帧,我想在 Python 中加载它们。阅读有关 NetworkX 的文章,似乎不太可能将两个表(一个用于节点,一个用于边)加载到同一个图中,我不确定什么是最好的方法:
我是否应该仅使用来自 DataFrame 的节点信息创建一个图形,然后添加(附加)来自另一个 DataFrame 的边?如果是这样,并且由于 nx.from_pandas_dataframe() 需要有关边缘的信息,我想我不应该使用它来创建节点...我应该只将信息作为列表传递吗?
我是否应该仅使用来自 DataFrame 的边信息创建一个图形,然后将来自其他 DataFrame 的信息作为属性添加到每个节点?有没有比遍历 DataFrame 和节点更好的方法?
从边 table 创建加权图
import networkx as nx
import pandas as pd
edges = pd.DataFrame({'source' : [0, 1],
'target' : [1, 2],
'weight' : [100, 50]})
nodes = pd.DataFrame({'node' : [0, 1, 2],
'name' : ['Foo', 'Bar', 'Baz'],
'gender' : ['M', 'F', 'M']})
G = nx.from_pandas_dataframe(edges, 'source', 'target', 'weight')
然后使用set_node_attributes
:
从字典中添加节点属性
nx.set_node_attributes(G, 'name', pd.Series(nodes.name, index=nodes.node).to_dict())
nx.set_node_attributes(G, 'gender', pd.Series(nodes.gender, index=nodes.node).to_dict())
或遍历图形以添加节点属性:
for i in sorted(G.nodes()):
G.node[i]['name'] = nodes.name[i]
G.node[i]['gender'] = nodes.gender[i]
更新:
从 nx 2.0
开始,nx.set_node_attributes
的参数顺序有 changed:(G, values, name=None)
使用上面的例子:
nx.set_node_attributes(G, pd.Series(nodes.gender, index=nodes.node).to_dict(), 'gender')
从 nx 2.4
开始,G.node[]
is replaced by G.nodes[]
。
小提示:
from_pandas_dataframe在nx 2中不起作用,参考这个
G = nx.from_pandas_dataframe(edges, 'source', 'target', 'weight')
我认为在 nx 2.0 中是这样的:
G = nx.from_pandas_edgelist(edges, source = "Source", target = "Target")
这里的答案基本相同,但更新了一些细节。我们将从基本相同的设置开始,但这里不会有节点的索引,只有名称来解决@LancelotHolmes 评论并制作它更一般:
import networkx as nx
import pandas as pd
linkData = pd.DataFrame({'source' : ['Amy', 'Bob'],
'target' : ['Bob', 'Cindy'],
'weight' : [100, 50]})
nodeData = pd.DataFrame({'name' : ['Amy', 'Bob', 'Cindy'],
'type' : ['Foo', 'Bar', 'Baz'],
'gender' : ['M', 'F', 'M']})
G = nx.from_pandas_edgelist(linkData, 'source', 'target', True, nx.DiGraph())
此处 True
参数告诉 NetworkX 将 linkData 中的所有属性保留为 link 属性。在这种情况下,我已将其设为 DiGraph
类型,但如果您不需要它,则可以通过明显的方式将其设为另一种类型。
现在,由于您需要通过从 linkData 生成的节点名称来匹配 nodeData,因此您需要将 nodeData 数据帧的索引设置为 name
属性,然后将其设为字典,以便 NetworkX 2.x 可以将其作为节点属性加载。
nx.set_node_attributes(G, nodeData.set_index('name').to_dict('index'))
这会将整个 nodeData 数据帧加载到字典中,其中键是名称,其他属性是该键中的 key:value 对(即,节点索引是其名称的普通节点属性) .
我是使用 Python 处理图形的新手:NetworkX。到目前为止,我一直在使用 Gephi。那里的标准步骤(但不是唯一可能的)是:
从table/spreadsheet加载节点信息;其中一列应该是 ID,其余列是关于节点的元数据(节点是人,所以性别,组......通常用于着色)。喜欢:
id;NormalizedName;Gender per1;Jesús;male per2;Abraham;male per3;Isaac;male per4;Jacob;male per5;Judá;male per6;Tamar;female ...
然后也从 table/spreadsheet 加载边,使用与节点电子表格的列 ID 中相同的节点名称,通常有四列(目标、源、重量和类型):
Target;Source;Weight;Type per1;per2;3;Undirected per3;per4;2;Undirected ...
这是我拥有的两个数据帧,我想在 Python 中加载它们。阅读有关 NetworkX 的文章,似乎不太可能将两个表(一个用于节点,一个用于边)加载到同一个图中,我不确定什么是最好的方法:
我是否应该仅使用来自 DataFrame 的节点信息创建一个图形,然后添加(附加)来自另一个 DataFrame 的边?如果是这样,并且由于 nx.from_pandas_dataframe() 需要有关边缘的信息,我想我不应该使用它来创建节点...我应该只将信息作为列表传递吗?
我是否应该仅使用来自 DataFrame 的边信息创建一个图形,然后将来自其他 DataFrame 的信息作为属性添加到每个节点?有没有比遍历 DataFrame 和节点更好的方法?
import networkx as nx
import pandas as pd
edges = pd.DataFrame({'source' : [0, 1],
'target' : [1, 2],
'weight' : [100, 50]})
nodes = pd.DataFrame({'node' : [0, 1, 2],
'name' : ['Foo', 'Bar', 'Baz'],
'gender' : ['M', 'F', 'M']})
G = nx.from_pandas_dataframe(edges, 'source', 'target', 'weight')
然后使用set_node_attributes
:
nx.set_node_attributes(G, 'name', pd.Series(nodes.name, index=nodes.node).to_dict())
nx.set_node_attributes(G, 'gender', pd.Series(nodes.gender, index=nodes.node).to_dict())
或遍历图形以添加节点属性:
for i in sorted(G.nodes()):
G.node[i]['name'] = nodes.name[i]
G.node[i]['gender'] = nodes.gender[i]
更新:
从 nx 2.0
开始,nx.set_node_attributes
的参数顺序有 changed:(G, values, name=None)
使用上面的例子:
nx.set_node_attributes(G, pd.Series(nodes.gender, index=nodes.node).to_dict(), 'gender')
从 nx 2.4
开始,G.node[]
is replaced by G.nodes[]
。
小提示:
from_pandas_dataframe在nx 2中不起作用,参考这个
G = nx.from_pandas_dataframe(edges, 'source', 'target', 'weight')
我认为在 nx 2.0 中是这样的:
G = nx.from_pandas_edgelist(edges, source = "Source", target = "Target")
这里的答案基本相同,但更新了一些细节。我们将从基本相同的设置开始,但这里不会有节点的索引,只有名称来解决@LancelotHolmes 评论并制作它更一般:
import networkx as nx
import pandas as pd
linkData = pd.DataFrame({'source' : ['Amy', 'Bob'],
'target' : ['Bob', 'Cindy'],
'weight' : [100, 50]})
nodeData = pd.DataFrame({'name' : ['Amy', 'Bob', 'Cindy'],
'type' : ['Foo', 'Bar', 'Baz'],
'gender' : ['M', 'F', 'M']})
G = nx.from_pandas_edgelist(linkData, 'source', 'target', True, nx.DiGraph())
此处 True
参数告诉 NetworkX 将 linkData 中的所有属性保留为 link 属性。在这种情况下,我已将其设为 DiGraph
类型,但如果您不需要它,则可以通过明显的方式将其设为另一种类型。
现在,由于您需要通过从 linkData 生成的节点名称来匹配 nodeData,因此您需要将 nodeData 数据帧的索引设置为 name
属性,然后将其设为字典,以便 NetworkX 2.x 可以将其作为节点属性加载。
nx.set_node_attributes(G, nodeData.set_index('name').to_dict('index'))
这会将整个 nodeData 数据帧加载到字典中,其中键是名称,其他属性是该键中的 key:value 对(即,节点索引是其名称的普通节点属性) .