html_node 网站元数据标签区分大小写

html_node case sensitivity with website meta data tags

我试图通过使用 rvest 包提取 meta name="generator" 标签来检测许多网站的内容管理系统。代码看起来像这样:

library(rvest)
url <- "https://www.example.com"

meta_generator <- read_html(url) %>% 
  html_nodes("meta[name=generator]") %>%
  html_attr("content") %>% 
  paste(collapse = "")

复杂的是 Drupal 将生成器中的 'g' 大写,因此:meta name="Generator"

而 Wordpress 显示为 meta name="generator",因此在这种情况下,我上面的代码将检测到 Wordpress 而不是 Drupal 标签。

对于 rvest 是否有一个简单的等价于 ignore.case = TRUE 的方法?

谢谢。

您可以简单地使用逗号:

meta_generator <- read_html(url) %>% 
  html_nodes("meta[name=generator],meta[name=Generator]") %>%
  html_attr("content") %>% 
  paste(collapse = "")