R plot data.frame 以获得更有效的数据概览
R plot data.frame to get more effective overview of data
在工作中,当我想了解数据集(我在人寿保险中处理投资组合数据)时,我通常会使用 Excel 中的数据透视表来查看例如变量随时间的发展或变量之间的依赖关系。
我记得在大学里有一个很好的 R 函数,你可以在其中将数据框的每一列与其他每一列进行对比,例如:
对于 issue.age 和持续时间之间的依赖关系,这个图实际上很有趣,因为您可以清楚地看到高发行年龄伴随着较短的政策持续时间(因为每个政策都有最大年龄)。然而,涉及发行年份 iss.year
的情节要少得多 "visual"。事实上,你从他们身上看不到任何东西。我想看一眼问题年龄的分布是否在不同的 issue.years 上发生了变化,比如
从 2014 年到 2016 年,您可以立即看到新签发保单的平均年龄一直在增加。
我不想编写需要为我放入的每个数据集自定义的代码,因为这样我也可以在 Excel 中手动更快地完成它。
所以我的问题是,有没有一种简单的方法可以使用比标准 plot(data.frame)
更灵活的图表类型将矩阵的每一列与其他每一列进行对比?
来自 GGally
library 的 ggpairs()
函数。它具有多种可视化所有不同类型的列的功能,并提供了对可视化内容的大量控制。
例如,这是上面链接的小插图的片段:
data(tips, package = "reshape")
ggpairs(tips)
在工作中,当我想了解数据集(我在人寿保险中处理投资组合数据)时,我通常会使用 Excel 中的数据透视表来查看例如变量随时间的发展或变量之间的依赖关系。 我记得在大学里有一个很好的 R 函数,你可以在其中将数据框的每一列与其他每一列进行对比,例如:
对于 issue.age 和持续时间之间的依赖关系,这个图实际上很有趣,因为您可以清楚地看到高发行年龄伴随着较短的政策持续时间(因为每个政策都有最大年龄)。然而,涉及发行年份 iss.year
的情节要少得多 "visual"。事实上,你从他们身上看不到任何东西。我想看一眼问题年龄的分布是否在不同的 issue.years 上发生了变化,比如
从 2014 年到 2016 年,您可以立即看到新签发保单的平均年龄一直在增加。
我不想编写需要为我放入的每个数据集自定义的代码,因为这样我也可以在 Excel 中手动更快地完成它。
所以我的问题是,有没有一种简单的方法可以使用比标准 plot(data.frame)
更灵活的图表类型将矩阵的每一列与其他每一列进行对比?
来自 GGally
library 的 ggpairs()
函数。它具有多种可视化所有不同类型的列的功能,并提供了对可视化内容的大量控制。
例如,这是上面链接的小插图的片段:
data(tips, package = "reshape")
ggpairs(tips)