在 R 中,我有一列文本。我如何在 R 中编写一个脚本来计算特定单词的频率?
In R i have a column with text. How can i write a script in R that counts the frequency of the specific words?
每个条目的文本列最多可以包含 100 个字母。我如何编写一个脚本来识别单词 "Approved" 或 "Rejected"。有时这个词会是“-Approved”、“Approved”、"Approved" 或 "Approve"。我希望它用 "LIKE" 类型的函数来解释每个场景。
我正在寻找两个词,因此 "OR" 可能适用于此而不是范围。
R 有一对文本相似函数,agrep
和 agrepl
,它们类似于 grep
和 grepl
在给定向量时返回向量。 agrepl 函数是合乎逻辑的,并且与输入的长度相同,因此在这种情况下效果更好:
agrepl("Approved", df$text_col) | agrepl("Rejected", df$text_col)
这可用于对数据帧的匹配行进行逻辑索引。或者您可以对逻辑向量求和以获得计数。建议:使用示例编辑您的问题以用于演示。
还有其他参数可用于调整近似匹配的紧密度。
每个条目的文本列最多可以包含 100 个字母。我如何编写一个脚本来识别单词 "Approved" 或 "Rejected"。有时这个词会是“-Approved”、“Approved”、"Approved" 或 "Approve"。我希望它用 "LIKE" 类型的函数来解释每个场景。
我正在寻找两个词,因此 "OR" 可能适用于此而不是范围。
R 有一对文本相似函数,agrep
和 agrepl
,它们类似于 grep
和 grepl
在给定向量时返回向量。 agrepl 函数是合乎逻辑的,并且与输入的长度相同,因此在这种情况下效果更好:
agrepl("Approved", df$text_col) | agrepl("Rejected", df$text_col)
这可用于对数据帧的匹配行进行逻辑索引。或者您可以对逻辑向量求和以获得计数。建议:使用示例编辑您的问题以用于演示。
还有其他参数可用于调整近似匹配的紧密度。