交互式条件直方图桶切片数据可视化
interactive conditional histogram bucket slicing data visualization
我有一个 df 看起来像:
df.head()
Out[1]:
A B C
city0 40 12 73
city1 65 56 10
city2 77 58 71
city3 89 53 49
city4 33 98 90
可以通过以下代码创建示例 df:
df = pd.DataFrame(np.random.randint(100,size=(1000000,3)), columns=list('ABC'))
indx = ['city'+str(x) for x in range(0,1000000)]
df.index = indx
我想做的是:
a) 为 A 列确定适当的直方图桶长度,并将每个城市分配给 A 列的桶
b) 为 B 列确定适当的直方图桶长度,并将每个城市分配给 B 列的桶
也许生成的 df 看起来像(或者 pandas 中是否有更好的内置方式?)
df.head()
Out[1]:
A B C Abkt Bbkt
city0 40 12 73 2 1
city1 65 56 10 4 3
city2 77 58 71 4 3
city3 89 53 49 5 3
city4 33 98 90 2 5
其中 Abkt 和 Bbkt 是直方图桶标识符:
1-20 = 1
21-40 = 2
41-60 = 3
61-80 = 4
81-100 = 5
最终,我想更好地了解每个城市在 A、B 和 C 列方面的行为,并能够回答如下问题:
a) A 列(或 B 列)的分布是什么样的 - 即 most/least 填充了哪些桶。
b) 以 A 列的特定 slice/bucket 为条件,B 列的分布是什么样的 - 即 most/least 填充了哪些桶。
c) 以 A 列和 B 列的特定 slice/bucket 为条件,C 的行为是什么样的。
理想情况下,我希望能够可视化数据(热图、区域标识符等)。我是一个亲戚 pandas/python 新手,不知道可以开发什么。
如果 SO 社区可以提供代码示例说明我如何做我想做的事情(或者如果有更好的 pandas/numpy/scipy 内置方法,则提供更好的方法)我将不胜感激。
此外,任何指向资源的指针都可以帮助我更好地 summarize/slice/dice 我的数据,并能够在我进行分析时在中间步骤中进行可视化。
更新:
我正在关注评论中的一些建议。
我试过了:
1) df.hist()
ValueError: The first argument of bincount must be non-negative
2) df[['A']].hist(bins=10,range=(0,10))
array([[<matplotlib.axes._subplots.AxesSubplot object at 0x000000A2350615C0>]], dtype=object)
#2
不是要演剧情吗?而不是生成一个不被渲染的对象?我正在使用 jupyter notebook
。
我需要在 Jupyter Notebook
中打开/启用某些东西来呈现直方图对象吗?
更新2:
我通过以下方式解决了渲染问题:in Ipython notebook, Pandas is not displying the graph I try to plot.
更新3:
根据评论的建议,我开始浏览 pandas visualization, bokeh and seaborn。但是,我不确定如何在地块之间创建 linkages。
假设我有 10 个变量。我想探索它们,但由于 10 是一次探索的大量数字,假设我想在任何给定时间探索 5 (r、s、t、u、v)。
如果我想要一个带有边际分布图的交互式 hexbin 来检查 r 和 s 之间的关系,我如何在给定 r 和 s(多边形)的交互式区域 selections/slices 的情况下查看 t、u 和 v 的分布.
我在这里找到了带有边缘分布图的 hexbin hexbin plot:
但是:
1) 如何实现交互(允许选择多边形)
2) 如何 link 将 r & s 的区域选择到其他图,例如 t、u 和 v 的 3 个直方图图(或任何其他类型的图)。
这样,我可以更严格地浏览数据并深入探索其中的关系。
作为一个没有足够代表的新手,我不能发表评论,所以我把它作为一个 "answer," 放在这里,虽然它不应该被视为一个;这些只是与评论相同的一些不完整的建议。
和其他人一样,我也喜欢 seaborn
,但我不确定这些情节是否以您正在寻找的方式互动。虽然我没有使用过 bokeh
,但我的理解是它提供了更多的交互方式,但无论包如何,当你超越 3 和 4 个变量时,你只能将这么多塞进一个(家庭)的)图表。
至于直接在你的table中,前面提到的df.hist()
(通过lanery) is a good start. Once you have those bins, you can then play with the immensely powerful df.groupby()
函数。我已经使用pandas两年了现在,这个功能仍然让我印象深刻。虽然不是交互式的,但它肯定会帮助您根据需要对数据进行切片和切块。
为了获得您想要的交互效果,您必须将您关心的所有列合并在一起。
我能想到的最干净的方法是 stack
变成一个 series
然后使用 pd.cut
考虑你的样本df
df_ = pd.cut(df[['A', 'B']].stack(), 5, labels=list(range(5))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'
pd.concat([df, df_], axis=1)
让我们构建一个更好的示例并使用 seaborn
查看可视化
df = pd.DataFrame(dict(A=(np.random.randn(10000) * 100 + 20).astype(int),
B=(np.random.randn(10000) * 100 - 20).astype(int)))
import seaborn as sns
df.index = df.index.to_series().astype(str).radd('city')
df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'
sns.jointplot(x=df_.Abkt, y=df_.Bbkt, kind="scatter", color="k")
或者一些具有相关性的数据如何
mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 100000)
df = pd.DataFrame(data, columns=["A", "B"])
df.index = df.index.to_series().astype(str).radd('city')
df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'
sns.jointplot(x=df_.Abkt, y=df_.Bbkt, kind="scatter", color="k")
互动bokeh
不要太复杂
from bokeh.io import show, output_notebook, output_file
from bokeh.plotting import figure
from bokeh.layouts import row, column
from bokeh.models import ColumnDataSource, Select, CustomJS
output_notebook()
# generate random data
flips = np.random.choice((1, -1), (5, 5))
flips = np.tril(flips, -1) + np.triu(flips, 1) + np.eye(flips.shape[0])
half = np.ones((5, 5)) / 2
cov = (half + np.diag(np.diag(half))) * flips
mean = np.zeros(5)
data = np.random.multivariate_normal(mean, cov, 10000)
df = pd.DataFrame(data, columns=list('ABCDE'))
df.index = df.index.to_series().astype(str).radd('city')
# Stack and cut to get dependent relationships
b = 20
df_ = pd.cut(df.stack(), b, labels=list(range(b))).unstack()
# assign default columns x and y. These will be the columns I set bokeh to read
df_[['x', 'y']] = df_.loc[:, ['A', 'B']]
source = ColumnDataSource(data=df_)
tools = 'box_select,pan,box_zoom,wheel_zoom,reset,resize,save'
p = figure(plot_width=600, plot_height=300)
p.circle('x', 'y', source=source, fill_color='olive', line_color='black', alpha=.5)
def gcb(like, n):
code = """
var data = source.get('data');
var f = cb_obj.get('value');
data['{0}{1}'] = data[f];
source.trigger('change');
"""
return CustomJS(args=dict(source=source), code=code.format(like, n))
xcb = CustomJS(
args=dict(source=source),
code="""
var data = source.get('data');
var colm = cb_obj.get('value');
data['x'] = data[colm];
source.trigger('change');
"""
)
ycb = CustomJS(
args=dict(source=source),
code="""
var data = source.get('data');
var colm = cb_obj.get('value');
data['y'] = data[colm];
source.trigger('change');
"""
)
options = list('ABCDE')
x_select = Select(options=options, callback=xcb, value='A')
y_select = Select(options=options, callback=ycb, value='B')
show(column(p, row(x_select, y_select)))
这是一个使用 bokeh
and HoloViews
的新解决方案。它应该对交互部分有更多的反应。
我尽量记住 简单就是美丽 当谈到数据可视化时。
我使用 faker
库来生成随机城市名称,使下面的图表更真实。
即使最重要的部分是库的选择,我也会将所有代码放在这里。
import pandas as pd
import numpy as np
from faker import Faker
def generate_random_dataset(city_number,
list_identifier,
labels,
bins,
city_location='en_US'):
fake = Faker(locale=city_location)
df = pd.DataFrame(data=np.random.uniform(0, 100, len(list_identifier)]),
index=[fake.city() for _ in range(city_number)],
columns=list_identifier)
for name in list_identifier:
df[name + 'bkt'] = pd.Series(pd.cut(df[name], bins, labels=labels))
return df
list_identifier=list('ABC')
labels = ['Low', 'Medium', 'Average', 'Good', 'Great']
bins = np.array([-1, 20, 40, 60, 80, 101])
df = generate_random_dataset(30, list_identifier, labels, bins)
df.head()
将输出:
有时,当您的数据集很小时,显示一个带有颜色的简单图表就足够了。
from bokeh.charts import Bar, output_file, show
from bokeh.layouts import column
bar = []
for name in list_identifier:
bar.append(Bar(df, label='index', values=name, stack=name+'bkt',
title="percentage of " + name, legend='top_left', plot_width=1024))
output_file('cities.html')
show(column(bar))
将创建一个包含图表的新 html 页面(城市)。请注意,使用 bokeh
生成的所有图表都是交互式的。
bokeh
最初无法绘制 hexbin。但是,HoloViews
可以。因此,它允许在 ipython notebook
.
中绘制交互式绘图
语法非常简单,您只需要一个包含两列的矩阵并调用 hist 方法:
import holoviews as hv
hv.notebook_extension('bokeh')
df = generate_random_dataset(1000, list_identifier, list(range(5)), 5)
points = hv.Points(np.column_stack((df.A, df.B)))
points.hist(num_bins=5, dimension=['x', 'y'])
为了与@piRSquared 解决方案进行比较,我窃取了一些代码(顺便说一句谢谢 :) 以显示具有一定相关性的数据:
mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 100000)
df = pd.DataFrame(data, columns=["A", "B"])
df.index = df.index.to_series().astype(str).radd('city')
df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'
points = hv.Points(np.column_stack((df_.Abkt, df_.Bbkt)))
points.hist(num_bins=5, dimension=['x', 'y'])
请考虑访问 HoloViews
tutorial.
我有一个 df 看起来像:
df.head()
Out[1]:
A B C
city0 40 12 73
city1 65 56 10
city2 77 58 71
city3 89 53 49
city4 33 98 90
可以通过以下代码创建示例 df:
df = pd.DataFrame(np.random.randint(100,size=(1000000,3)), columns=list('ABC'))
indx = ['city'+str(x) for x in range(0,1000000)]
df.index = indx
我想做的是:
a) 为 A 列确定适当的直方图桶长度,并将每个城市分配给 A 列的桶
b) 为 B 列确定适当的直方图桶长度,并将每个城市分配给 B 列的桶
也许生成的 df 看起来像(或者 pandas 中是否有更好的内置方式?)
df.head()
Out[1]:
A B C Abkt Bbkt
city0 40 12 73 2 1
city1 65 56 10 4 3
city2 77 58 71 4 3
city3 89 53 49 5 3
city4 33 98 90 2 5
其中 Abkt 和 Bbkt 是直方图桶标识符:
1-20 = 1
21-40 = 2
41-60 = 3
61-80 = 4
81-100 = 5
最终,我想更好地了解每个城市在 A、B 和 C 列方面的行为,并能够回答如下问题:
a) A 列(或 B 列)的分布是什么样的 - 即 most/least 填充了哪些桶。
b) 以 A 列的特定 slice/bucket 为条件,B 列的分布是什么样的 - 即 most/least 填充了哪些桶。
c) 以 A 列和 B 列的特定 slice/bucket 为条件,C 的行为是什么样的。
理想情况下,我希望能够可视化数据(热图、区域标识符等)。我是一个亲戚 pandas/python 新手,不知道可以开发什么。
如果 SO 社区可以提供代码示例说明我如何做我想做的事情(或者如果有更好的 pandas/numpy/scipy 内置方法,则提供更好的方法)我将不胜感激。
此外,任何指向资源的指针都可以帮助我更好地 summarize/slice/dice 我的数据,并能够在我进行分析时在中间步骤中进行可视化。
更新:
我正在关注评论中的一些建议。
我试过了:
1) df.hist()
ValueError: The first argument of bincount must be non-negative
2) df[['A']].hist(bins=10,range=(0,10))
array([[<matplotlib.axes._subplots.AxesSubplot object at 0x000000A2350615C0>]], dtype=object)
#2
不是要演剧情吗?而不是生成一个不被渲染的对象?我正在使用 jupyter notebook
。
我需要在 Jupyter Notebook
中打开/启用某些东西来呈现直方图对象吗?
更新2:
我通过以下方式解决了渲染问题:in Ipython notebook, Pandas is not displying the graph I try to plot.
更新3:
根据评论的建议,我开始浏览 pandas visualization, bokeh and seaborn。但是,我不确定如何在地块之间创建 linkages。
假设我有 10 个变量。我想探索它们,但由于 10 是一次探索的大量数字,假设我想在任何给定时间探索 5 (r、s、t、u、v)。
如果我想要一个带有边际分布图的交互式 hexbin 来检查 r 和 s 之间的关系,我如何在给定 r 和 s(多边形)的交互式区域 selections/slices 的情况下查看 t、u 和 v 的分布.
我在这里找到了带有边缘分布图的 hexbin hexbin plot:
但是:
1) 如何实现交互(允许选择多边形)
2) 如何 link 将 r & s 的区域选择到其他图,例如 t、u 和 v 的 3 个直方图图(或任何其他类型的图)。
这样,我可以更严格地浏览数据并深入探索其中的关系。
作为一个没有足够代表的新手,我不能发表评论,所以我把它作为一个 "answer," 放在这里,虽然它不应该被视为一个;这些只是与评论相同的一些不完整的建议。
和其他人一样,我也喜欢 seaborn
,但我不确定这些情节是否以您正在寻找的方式互动。虽然我没有使用过 bokeh
,但我的理解是它提供了更多的交互方式,但无论包如何,当你超越 3 和 4 个变量时,你只能将这么多塞进一个(家庭)的)图表。
至于直接在你的table中,前面提到的df.hist()
(通过lanery) is a good start. Once you have those bins, you can then play with the immensely powerful df.groupby()
函数。我已经使用pandas两年了现在,这个功能仍然让我印象深刻。虽然不是交互式的,但它肯定会帮助您根据需要对数据进行切片和切块。
为了获得您想要的交互效果,您必须将您关心的所有列合并在一起。
我能想到的最干净的方法是 stack
变成一个 series
然后使用 pd.cut
考虑你的样本df
df_ = pd.cut(df[['A', 'B']].stack(), 5, labels=list(range(5))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'
pd.concat([df, df_], axis=1)
让我们构建一个更好的示例并使用 seaborn
df = pd.DataFrame(dict(A=(np.random.randn(10000) * 100 + 20).astype(int),
B=(np.random.randn(10000) * 100 - 20).astype(int)))
import seaborn as sns
df.index = df.index.to_series().astype(str).radd('city')
df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'
sns.jointplot(x=df_.Abkt, y=df_.Bbkt, kind="scatter", color="k")
或者一些具有相关性的数据如何
mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 100000)
df = pd.DataFrame(data, columns=["A", "B"])
df.index = df.index.to_series().astype(str).radd('city')
df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'
sns.jointplot(x=df_.Abkt, y=df_.Bbkt, kind="scatter", color="k")
互动bokeh
不要太复杂
from bokeh.io import show, output_notebook, output_file
from bokeh.plotting import figure
from bokeh.layouts import row, column
from bokeh.models import ColumnDataSource, Select, CustomJS
output_notebook()
# generate random data
flips = np.random.choice((1, -1), (5, 5))
flips = np.tril(flips, -1) + np.triu(flips, 1) + np.eye(flips.shape[0])
half = np.ones((5, 5)) / 2
cov = (half + np.diag(np.diag(half))) * flips
mean = np.zeros(5)
data = np.random.multivariate_normal(mean, cov, 10000)
df = pd.DataFrame(data, columns=list('ABCDE'))
df.index = df.index.to_series().astype(str).radd('city')
# Stack and cut to get dependent relationships
b = 20
df_ = pd.cut(df.stack(), b, labels=list(range(b))).unstack()
# assign default columns x and y. These will be the columns I set bokeh to read
df_[['x', 'y']] = df_.loc[:, ['A', 'B']]
source = ColumnDataSource(data=df_)
tools = 'box_select,pan,box_zoom,wheel_zoom,reset,resize,save'
p = figure(plot_width=600, plot_height=300)
p.circle('x', 'y', source=source, fill_color='olive', line_color='black', alpha=.5)
def gcb(like, n):
code = """
var data = source.get('data');
var f = cb_obj.get('value');
data['{0}{1}'] = data[f];
source.trigger('change');
"""
return CustomJS(args=dict(source=source), code=code.format(like, n))
xcb = CustomJS(
args=dict(source=source),
code="""
var data = source.get('data');
var colm = cb_obj.get('value');
data['x'] = data[colm];
source.trigger('change');
"""
)
ycb = CustomJS(
args=dict(source=source),
code="""
var data = source.get('data');
var colm = cb_obj.get('value');
data['y'] = data[colm];
source.trigger('change');
"""
)
options = list('ABCDE')
x_select = Select(options=options, callback=xcb, value='A')
y_select = Select(options=options, callback=ycb, value='B')
show(column(p, row(x_select, y_select)))
这是一个使用 bokeh
and HoloViews
的新解决方案。它应该对交互部分有更多的反应。
我尽量记住 简单就是美丽 当谈到数据可视化时。
我使用 faker
库来生成随机城市名称,使下面的图表更真实。
即使最重要的部分是库的选择,我也会将所有代码放在这里。
import pandas as pd
import numpy as np
from faker import Faker
def generate_random_dataset(city_number,
list_identifier,
labels,
bins,
city_location='en_US'):
fake = Faker(locale=city_location)
df = pd.DataFrame(data=np.random.uniform(0, 100, len(list_identifier)]),
index=[fake.city() for _ in range(city_number)],
columns=list_identifier)
for name in list_identifier:
df[name + 'bkt'] = pd.Series(pd.cut(df[name], bins, labels=labels))
return df
list_identifier=list('ABC')
labels = ['Low', 'Medium', 'Average', 'Good', 'Great']
bins = np.array([-1, 20, 40, 60, 80, 101])
df = generate_random_dataset(30, list_identifier, labels, bins)
df.head()
将输出:
有时,当您的数据集很小时,显示一个带有颜色的简单图表就足够了。
from bokeh.charts import Bar, output_file, show
from bokeh.layouts import column
bar = []
for name in list_identifier:
bar.append(Bar(df, label='index', values=name, stack=name+'bkt',
title="percentage of " + name, legend='top_left', plot_width=1024))
output_file('cities.html')
show(column(bar))
将创建一个包含图表的新 html 页面(城市)。请注意,使用 bokeh
生成的所有图表都是交互式的。
bokeh
最初无法绘制 hexbin。但是,HoloViews
可以。因此,它允许在 ipython notebook
.
语法非常简单,您只需要一个包含两列的矩阵并调用 hist 方法:
import holoviews as hv
hv.notebook_extension('bokeh')
df = generate_random_dataset(1000, list_identifier, list(range(5)), 5)
points = hv.Points(np.column_stack((df.A, df.B)))
points.hist(num_bins=5, dimension=['x', 'y'])
为了与@piRSquared 解决方案进行比较,我窃取了一些代码(顺便说一句谢谢 :) 以显示具有一定相关性的数据:
mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 100000)
df = pd.DataFrame(data, columns=["A", "B"])
df.index = df.index.to_series().astype(str).radd('city')
df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'
points = hv.Points(np.column_stack((df_.Abkt, df_.Bbkt)))
points.hist(num_bins=5, dimension=['x', 'y'])
请考虑访问 HoloViews
tutorial.