R Tidytext 和 unnest_tokens 错误
R Tidytext and unnest_tokens error
R 的新手,已经开始使用 tidytext 包。
我正在尝试使用参数输入 unnest_tokens
函数,以便我可以进行多列分析。所以而不是这个
library(janeaustenr)
library(tidytext)
library(dplyr)
library(stringr)
original_books <- austen_books() %>%
group_by(book) %>%
mutate(linenumber = row_number(),
chapter = cumsum(str_detect(text, regex("^chapter [\divxlc]",
ignore_case = TRUE)))) %>%
ungroup()
original_books
tidy_books <- original_books %>%
unnest_tokens(word, text)
最后一行代码是:
output<- 'word'
input<- 'text'
tidy_books <- original_books %>%
unnest_tokens(output, input)
但我明白了:
Error in check_input(x) :
Input must be a character vector of any length or a list of character
vectors, each of which has a length of 1.
我曾尝试使用 as.character()
,但运气不佳。
关于这将如何运作有什么想法吗?
尝试
tidy_books <- original_books %>%
unnest_tokens_(output, input)
下划线在unnest_tokens_
.
unnest_tokens_
是 unnest_tokens
的 "standard evaluation" 版本,允许您将变量名称作为字符串传递。有关标准与非标准评估的讨论,请参阅 Non-standard evaluation。
我遇到了同样的问题。我通过如下指定输入解决了这个问题:
unnest_tokens(input = "events", token = "words", "word")
with "events" 实际上是我的专栏名称。
R 的新手,已经开始使用 tidytext 包。
我正在尝试使用参数输入 unnest_tokens
函数,以便我可以进行多列分析。所以而不是这个
library(janeaustenr)
library(tidytext)
library(dplyr)
library(stringr)
original_books <- austen_books() %>%
group_by(book) %>%
mutate(linenumber = row_number(),
chapter = cumsum(str_detect(text, regex("^chapter [\divxlc]",
ignore_case = TRUE)))) %>%
ungroup()
original_books
tidy_books <- original_books %>%
unnest_tokens(word, text)
最后一行代码是:
output<- 'word'
input<- 'text'
tidy_books <- original_books %>%
unnest_tokens(output, input)
但我明白了:
Error in check_input(x) : Input must be a character vector of any length or a list of character vectors, each of which has a length of 1.
我曾尝试使用 as.character()
,但运气不佳。
关于这将如何运作有什么想法吗?
尝试
tidy_books <- original_books %>%
unnest_tokens_(output, input)
下划线在unnest_tokens_
.
unnest_tokens_
是 unnest_tokens
的 "standard evaluation" 版本,允许您将变量名称作为字符串传递。有关标准与非标准评估的讨论,请参阅 Non-standard evaluation。
我遇到了同样的问题。我通过如下指定输入解决了这个问题:
unnest_tokens(input = "events", token = "words", "word")
with "events" 实际上是我的专栏名称。