如何正确地将 .txt 文件加载到 R 中的 Vcorpus 中？

Question

所有。我想在 R 中分析几个 .txt 文件的内容。导入它们时遇到问题。这是我的代码（data/txt/2012/ 目录中有 238 个 .txt 文件）：

library(tm)   
cname <- file.path("../data", "txt", "2012")
docs <- Corpus(DirSource(cname), readerControl=list(reader=readPlain))

现在，如果我查看文档，它是一个包含 238 个文档的 Vcorpus，如预期的那样：

> docs
    <<VCorpus>>
    Metadata:  corpus specific: 0, document level (indexed): 0
    Content:  documents: 238

这里是我无法理解正在发生的事情的地方：

> docs[1]
    <<VCorpus>>
    Metadata:  corpus specific: 0, document level (indexed): 0
    Content:  documents: 1

> docs[[1]]
   <<PlainTextDocument>>
   Metadata:  7
   Content:  chars: 2156

在我看来，Vcorpus 有两个级别，第一个包含所有 238 个文档，第二个包含一个文档。我只想拥有一个包含 238 个文档的 Vcorpus，然后是 PlainTextDocument，预期输出将是（注意我只使用 [1] 而不是 [[1]] 来获取 PlainTextDocument）：

> docs[1]
   <<PlainTextDocument>>
   Metadata:  7
   Content:  chars: 2156

有什么方法可以将 .txt 文件加载到具有所需格式的 Vcorpus 中吗？或者我应该使用现在正在加载的方式？

非常感谢。干杯。

Answer 1

在我看来你已经正确地加载了语料库。

tm 包的介绍文档说您可以使用，比方说，writeLines(as.character(docs[[4]])) 来获取文档 4 的文本表示。

您也可以使用content(docs[[4]])。

如何正确地将 .txt 文件加载到 R 中的 Vcorpus 中？

How to correctly Load .txt files into Vcorpus in R?

r

corpus

text-mining

tm

如何正确地将 .txt 文件加载到 R 中的 Vcor​​pus 中？

How to correctly Load .txt files into Vcorpus in R?

r

corpus

text-mining

tm

如何正确地将 .txt 文件加载到 R 中的 Vcorpus 中？