在 readtext() 中使用通配符

Use of wildcards with readtext()

一个基本问题。我有一堆成绩单(.docx 文件)我想读入语料库。我使用 readtext() 读取单个文件没问题。

dat <- readtext("~/ownCloud/NLP/interview_1.docx")

只要我在 readtext 语句中放入“*.docx”,它就会报错。

dat <- readtext("~/ownCloud/NLP/*.docx")

Error: '/var/folders/bl/61g7ngh55vs79cfhfhnstd4c0000gn/T//RtmpWD6KSx/readtext-aa71916b691c0cf3cabc73a2e04a45f7/word/document.xml' does not exist.
In addition: Warning message:
In utils::unzip(file, exdir = path) : error 1 in extracting from zip file

为什么引用 zip 文件?我的目录中只有 .docx 文件。

我能够重现同样的问题。问题是该文件夹中有一些 hidden/temp .docx 文件,如果您删除它们然后尝试使用它的代码。

要查看隐藏文件,请转到您正在阅读 docx 文件的文件夹,并根据您的 OS select 显示它们的方式。在我的 mac 上,我使用了

CMD + SHIFT + .

删除它们后,再次尝试代码,它应该可以工作

library(readtext)
dat <- readtext("~/ownCloud/NLP/*.docx")