在 R 中，我有一列文本。我如何在 R 中编写一个脚本来计算特定单词的频率？

Question

每个条目的文本列最多可以包含 100 个字母。我如何编写一个脚本来识别单词 "Approved" 或 "Rejected"。有时这个词会是“-Approved”、“Approved”、"Approved" 或 "Approve"。我希望它用 "LIKE" 类型的函数来解释每个场景。

我正在寻找两个词，因此 "OR" 可能适用于此而不是范围。

Answer 1

R 有一对文本相似函数，agrep 和 agrepl，它们类似于 grep 和 grepl 在给定向量时返回向量。 agrepl 函数是合乎逻辑的，并且与输入的长度相同，因此在这种情况下效果更好：

 agrepl("Approved", df$text_col) | agrepl("Rejected", df$text_col)

这可用于对数据帧的匹配行进行逻辑索引。或者您可以对逻辑向量求和以获得计数。建议：使用示例编辑您的问题以用于演示。

还有其他参数可用于调整近似匹配的紧密度。

In R i have a column with text. How can i write a script in R that counts the frequency of the specific words?