如何在 R 中使用 quanteda 获取基本的可读性统计数据
How to get basic readability statistics using quanteda in R
对于几百个 pdf 的非常基本的见解,我想计算所有这些 pdf 的可读性分数 (Flesch Kincaid) 并将它们呈现在电子表格中。我在 R 方面的技能不足,我自己找不到解决方案。我正在寻找一个非常基本的解决方案。这是我目前所拥有的:
directory <- "my_folder"
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf),
readerControl = list(reader = readPDF, language = "dutch"))
但是,当使用 quanteda 时,我收到错误消息:'row names supplied are of the wrong lenght' 当使用以下
textstat_readability(corpus(my_corpus), measure = "Flesch.Kincaid")
有没有办法解决这个问题,或者是否存在替代方案?
是 - 避免 tm 工作流程。
directory <- "my_folder"
my_corpus <- readtext::readtext(paste0(directory, “/*.pdf”))
textstat_readability(corpus(my_corpus))
但请记住,许多可读性测量所需的音节计数功能在荷兰语中可能无法正确运行。
对于几百个 pdf 的非常基本的见解,我想计算所有这些 pdf 的可读性分数 (Flesch Kincaid) 并将它们呈现在电子表格中。我在 R 方面的技能不足,我自己找不到解决方案。我正在寻找一个非常基本的解决方案。这是我目前所拥有的:
directory <- "my_folder"
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf),
readerControl = list(reader = readPDF, language = "dutch"))
但是,当使用 quanteda 时,我收到错误消息:'row names supplied are of the wrong lenght' 当使用以下
textstat_readability(corpus(my_corpus), measure = "Flesch.Kincaid")
有没有办法解决这个问题,或者是否存在替代方案?
是 - 避免 tm 工作流程。
directory <- "my_folder"
my_corpus <- readtext::readtext(paste0(directory, “/*.pdf”))
textstat_readability(corpus(my_corpus))
但请记住,许多可读性测量所需的音节计数功能在荷兰语中可能无法正确运行。