html_node 网站元数据标签区分大小写
html_node case sensitivity with website meta data tags
我试图通过使用 rvest
包提取 meta name="generator"
标签来检测许多网站的内容管理系统。代码看起来像这样:
library(rvest)
url <- "https://www.example.com"
meta_generator <- read_html(url) %>%
html_nodes("meta[name=generator]") %>%
html_attr("content") %>%
paste(collapse = "")
复杂的是 Drupal 将生成器中的 'g' 大写,因此:meta name="Generator"
而 Wordpress 显示为 meta name="generator"
,因此在这种情况下,我上面的代码将检测到 Wordpress 而不是 Drupal 标签。
对于 rvest
是否有一个简单的等价于 ignore.case = TRUE
的方法?
谢谢。
您可以简单地使用逗号:
meta_generator <- read_html(url) %>%
html_nodes("meta[name=generator],meta[name=Generator]") %>%
html_attr("content") %>%
paste(collapse = "")
我试图通过使用 rvest
包提取 meta name="generator"
标签来检测许多网站的内容管理系统。代码看起来像这样:
library(rvest)
url <- "https://www.example.com"
meta_generator <- read_html(url) %>%
html_nodes("meta[name=generator]") %>%
html_attr("content") %>%
paste(collapse = "")
复杂的是 Drupal 将生成器中的 'g' 大写,因此:meta name="Generator"
而 Wordpress 显示为 meta name="generator"
,因此在这种情况下,我上面的代码将检测到 Wordpress 而不是 Drupal 标签。
对于 rvest
是否有一个简单的等价于 ignore.case = TRUE
的方法?
谢谢。
您可以简单地使用逗号:
meta_generator <- read_html(url) %>%
html_nodes("meta[name=generator],meta[name=Generator]") %>%
html_attr("content") %>%
paste(collapse = "")