rvest 从 table 中的指定列抓取

rvest scrape from a specified column in a table

我试图在比赛列表中抓取足球运动员效力的俱乐部(例如,对于 http://www.transfermarkt.com/alan-shearer/leistungsdatendetails/spieler/3110/wettbewerb/GB1 的 Alan Shearer,特别是在 table #3 中,标题为 "premier league")

烦人的是table的"For"列的俱乐部被编码为带有class"tiny_wappen"的图片。我可以把它们刮下来,然后把它们放到 data.frame 和

link <- "http://www.transfermarkt.com/alan-shearer/leistungsdatendetails/spieler/3110/wettbewerb/GB1"
    UrlPage <- read_html (link)
    Node <- UrlPage %>% html_nodes("table") %>% `[`(3) %>% html_nodes("img.tiny_wappen")
    ClubFor <- data.frame(html_attr(Node, "alt"))

但是相邻列(vs.)中的一些(大约五分之一)俱乐部也在这张图片中 class 所以我得到了一个列表,上面点缀着与之交手的俱乐部。有没有办法指定 table 的一列来抓取(或其他一些更聪明的方法来实现我想要的)?

pre-emptive一如既往的感谢,

您可以使用xpaths获取每一行的第四个单元格

Node <- UrlPage %>%
  html_nodes(xpath = "//*[@id='main']/div[9]/div[1]/div[2]/div[3]/table/tbody/tr/td[4]/a/img") 

ClubFor = Node %>%
  html_attr("alt") %>%
  data.frame()