根据第三个变量的箱线图标签异常值

Boxplot label outliers according to third variable

我正在尝试创建一个箱线图,其中异常值根据第三个变量而不是行名称进行标记。

我的数据如下所示:(现在编辑为包含多个国家和部门作为因子变量)

country <- c(rep(LETTERS[1:5],2))
sector <- rep(c("one", "two"),5)
set.seed(200)
value <- round(rnorm(10),2)
dat <- data.frame(country,sector,value)
dat

   country sector value
1        A    one  0.08
2        B    two  0.23
3        C    one  0.43
4        D    two  0.56
5        E    one  0.06
6        A    two -0.11
7        B    one -1.02
8        C    two -0.30
9        D    one  0.17

10乙二1.42

没有标签,箱线图是这样的:

boxplot(value ~ sector, data=dat)

我希望离群点上的标签反映变量国家/地区的值。

我在这里发现了一个类似的问题:Labeling outliers on boxplot in R 我正尝试按如下方式调整代码:

bxpdat <- boxplot(value ~ sector, data=dat)
text(bxpdat$group+0.2,                                           
bxpdat$out,                                                 
dat$country[which( dat$value == bxpdat$out, arr.ind=TRUE)[, 1]])  

但是我似乎做错了什么,因为这不起作用。我将不胜感激如何修复此代码的建议,

提前致谢!

微调:

x <- boxplot(value ~ sector, data=dat)

text(x$group, x$out,
     labels=subset(dat, sector %in% x$group & 
                     value %in% x$out)$country, pos=4)

这不是一个很好的通用解决方案,因为 subset 匹配可能会意外命中其他点。这会更好用,但我不确定如何在 base:

中做到这一点
library(data.table); setDT(dat, key = c("sector", "value"))

dat[ , {
  x <- boxplot(value ~ sector, data=dat)
  with(x, text(group, out, .SD[.(group, out), country], pos = 4))}]