用 R 提取短语
phrases extraction with R
我正在尝试为电影评论提取情感极性,因此为此从标记文本(使用 treetagger)中提取所有标记为 (ADV - VER:pper) 或(VER:pres - ADJ)。例如,在下面的示例中,提取的短语列表是:bien suivi, est efficace.
你能帮帮忙吗?
提前致谢
Database <- read.table("exp.txt", header = FALSE)
Database
V1 V2 V3
1 Toujours ADV toujours
2 bien ADV bien
3 suivi VER:pper suivre
4 par PRP par
5 mon DET:POS mon
6 conseiller NOM conseiller
7 Bon NAM <unknown>
8 accueil NOM accueil
9 , PUN ,
10 ma DET:POS mon
11 conseillère NOM conseiller
12 est VER:pres être
13 efficace ADJ efficace
14 et KON et
15 à PRP à
16 l' DET:ART le
17 écoute NOM écoute
18 .
我们可以使用 dplyr
来完成您的需求:
library(dplyr)
Database %>%
mutate(NV1 = lead(V1), NV2 = lead(V2)) %>%
filter((V2 == 'ADV' & NV2 == 'VER:pper') | (V2 == 'VER:pres' & NV2 == 'ADJ')) %>%
transmute(result = paste(V1, NV1))
# result
# bien suivi
# est efficace
请注意,这不是很可扩展,因为您必须键入您需要的任何条件,但这是一个开始,可能适合您的需要
我正在尝试为电影评论提取情感极性,因此为此从标记文本(使用 treetagger)中提取所有标记为 (ADV - VER:pper) 或(VER:pres - ADJ)。例如,在下面的示例中,提取的短语列表是:bien suivi, est efficace.
你能帮帮忙吗?
提前致谢
Database <- read.table("exp.txt", header = FALSE)
Database
V1 V2 V3
1 Toujours ADV toujours
2 bien ADV bien
3 suivi VER:pper suivre
4 par PRP par
5 mon DET:POS mon
6 conseiller NOM conseiller
7 Bon NAM <unknown>
8 accueil NOM accueil
9 , PUN ,
10 ma DET:POS mon
11 conseillère NOM conseiller
12 est VER:pres être
13 efficace ADJ efficace
14 et KON et
15 à PRP à
16 l' DET:ART le
17 écoute NOM écoute
18 .
我们可以使用 dplyr
来完成您的需求:
library(dplyr)
Database %>%
mutate(NV1 = lead(V1), NV2 = lead(V2)) %>%
filter((V2 == 'ADV' & NV2 == 'VER:pper') | (V2 == 'VER:pres' & NV2 == 'ADJ')) %>%
transmute(result = paste(V1, NV1))
# result
# bien suivi
# est efficace
请注意,这不是很可扩展,因为您必须键入您需要的任何条件,但这是一个开始,可能适合您的需要