如何在 R 中匹配相似文档
How to match similar documents in R
我创建了两个语料库:一个包含推文文本,另一个包含公司名称。我想做的是找出推文中提到了哪些公司。
推文示例文档:
> writeLines(as.character(tweet_corp[[175]]))
general motor send mexican made model chevi cruze us car dealer tax free across border make usaor pay big border tax
公司文件示例:
> writeLines(as.character(company_corp[[1397]]))
general motor
我想要一个匹配 tweet_corp[[175]] 和 company_corp[[1397]] 的输出。有什么办法吗?
您可以使用 stringr
包来检查公司名称是否出现在推文中,例如
library(stringr)
company_name <- "general motor"
tweet <- "general motor send mexican made model chevi cruze us car dealer tax free across border make usaor pay big border tax"
# check whether a company name occurs in a string
str_detect(
string = tweet,
pattern = coll(company_name)
)
我创建了两个语料库:一个包含推文文本,另一个包含公司名称。我想做的是找出推文中提到了哪些公司。
推文示例文档:
> writeLines(as.character(tweet_corp[[175]]))
general motor send mexican made model chevi cruze us car dealer tax free across border make usaor pay big border tax
公司文件示例:
> writeLines(as.character(company_corp[[1397]]))
general motor
我想要一个匹配 tweet_corp[[175]] 和 company_corp[[1397]] 的输出。有什么办法吗?
您可以使用 stringr
包来检查公司名称是否出现在推文中,例如
library(stringr)
company_name <- "general motor"
tweet <- "general motor send mexican made model chevi cruze us car dealer tax free across border make usaor pay big border tax"
# check whether a company name occurs in a string
str_detect(
string = tweet,
pattern = coll(company_name)
)