如何抓取嵌入的推文？ [R]

Question

我正在尝试抓取网站上嵌入的推文。我相信推文是通过 JSON 加载的。理想情况下，我将能够简单地抓取嵌入推文的 ID。据我所知，这些数据应该可以通过 css 选择器“#twitter-widget-0”获得，但是当我使用 rvest 进行抓取时没有任何返回。

我的代码如下：

page <- "https://deutsch.rt.com/amerika/86714-rund-woche-nach-russland-auch-china-schickt-militaer-nach-venezuela/"

read_html(page) %>%
  html_nodes('#twitter-widget-0') %>%
    html_text()

Answer 1

这样的事情可能会有所帮助

library(dplyr)
library(rvest)

page %>%
  read_html() %>%
  html_nodes("div.rtcode") %>%
  html_text()

#[1] "#Venezuela#China#Russia#Caracas#Chinese army soldiers arrived in 
#Venezuela #Chinese People’s Liberation Army soldiers, as part of a 
#cooperation program, #arrived, after delivering humanitarian supplies, to one 
#of Venezuelan military #facilities. pic.twitter.com/HwZ9Ee67d0— Sukhoi Su-57 
#frazor\U0001f1f7\U0001f1fa\U0001f1ee\U0001f1f3 (@I30mki) 1. April 2019"

或者，如果您想要独一无二的推特 URL

page %>%
  read_html() %>%
  html_nodes("div.rtcode a") %>%
  html_attr("href") %>%
  grep("status", ., value = TRUE)

#[1] "https://twitter.com/I30mki/status/1112578904835981312?ref_src=twsrc%5Etfw"

如何抓取嵌入的推文？ [R]

How can I scrape an embedded tweet? [R]

r

web-scraping

rselenium

rvest