c 使用 rep 或 replicate 或类似的语料库

Question

我有一个小语料库例如

myvec <- c("n417", "disturbance", "grand theft auto", "assault", "burglary", 
"vandalism", "atmt to locate", "drug arrest", "traffic stop", 
"larceny", "graffiti complaint / reporting")

corpus <- VCorpus(VectorSource(myvec))

如果我想让语料库大 10 倍，我该怎么做才能使结果变量是 VCorpus 而不是列表？

尝试过：

corpus <- replicate(10, corpus) # returns a list
corpus <- VCorpus(replicate(10, corpus)) # Error: inherits(x, "Source") is not TRUE
corpus <- c(corpus, corpus, corpus, corpus, corpus, corpus, corpus) # works, returns a corpus 7 times bigger but involves lots of typing)

如果我有一个小的语料库，并且为了示例目的我想把它扩大十倍，我该怎么做？

Answer 1

我们可以在复制后使用do.call和c

library(tm)
do.call(c, rep(list(corpus), 7))
# <<VCorpus>>
#Metadata:  corpus specific: 0, document level (indexed): 0
#Content:  documents: 77

同样适用于 replicate

do.call(c, replicate(7, corpus, simplify = FALSE))
#<<VCorpus>>
#Metadata:  corpus specific: 0, document level (indexed): 0
#Content:  documents: 77

此处不需要 simplify = FALSE replicate

do.call(c, replicate(7, corpus))
#<<VCorpus>>
#Metadata:  corpus specific: 0, document level (indexed): 0
#Content:  documents: 77

c 使用 rep 或 replicate 或类似的语料库

c a Corpus using rep or replicate or similar

r

corpus

text-mining