使用 Rvest 进行抓取:使用 html_attr('href') 不会获取链接
Scraping with Rvest: Links are not picked up with html_attr('href')
我正在尝试使用网站上的一些特定过滤器来抓取丹麦的职位发布档案。当我尝试抓取所有标题及其 link 时,我可以获得标题但不是 link。我尝试过不同的选择器,但没有任何选择 links。 CSS 选择器“.jix_job_archived > a b , #result_list_box strong” 选择所有标题。
对于提供的站点,第一个 link 应该是:https://www.jobindex.dk/c?t=r8830962&ctx=w
我附上了一张我想抓取屏幕右侧标记的 "href" 的网站的图片。
library(rvest)
library(tibble)
sel<- ".jix_job_archived > a b , #result_list_box strong"
jobindex <- "https://www.jobindex.dk/jobsoegning/kontor/offentlig?jobage=archive&maxdate=20200330&mindate=19901230"
tbl <- tibble(text = pg
%>% html_nodes(css = sel) %>%
html_text(), link = pg %>% html_nodes(css = sel) %>% html_attr('href'))
view(tbl)
**# A tibble: 20 x 2
text link
<chr> <chr>
1 Administrativ medarbejder/sekretær til stabsfunktion NA
2 Meeqqeriviup_igaffia_inuussutissanut_ikiortimik_pissarsiorpoq NA **
Link 在 <strong>
标签之外。因此,如果您为 html_nodes
提供选择器 ".jix_job_archived > a b , #result_list_box strong"
,则不会选择 link。
这可能会有所帮助。
library(rvest)
library(tibble)
jobindex <- "https://www.jobindex.dk/jobsoegning/kontor/offentlig?jobage=archive&maxdate=20200330&mindate=19901230"
jobnodes <- jobindex %>%
read_html %>%
html_nodes(".jobsearch-result")
text <- jobnodes %>% html_text %>% trimws() %>% sub("(.*?)\n.*","\1",.)
link1 <- jobnodes %>% html_node("a") %>% html_attr("data-click")
link2 <- jobnodes %>% html_node("a") %>% html_attr("href")
tbl <- tibble(text = text, link1 = link1, link2 = link2)
输出
tbl
# # A tibble: 20 x 3
# text link1 link2
# <chr> <chr> <chr>
# 1 Administrativ medarbejder/sekretær til stabsfunk… /c?t=r8830962&ct… http://www.profiljob.dk/resultat/administrativ-medarbejdersekretae…
# 2 Meeqqeriviup_igaffia_inuussutissanut_ikiortimik_… /c?t=r8831043&ct… https://www.qeqqata.gl/Ledig_stillinger/2020/04/Meeqqeriviup_igaff…
# 3 Borgerrådgiver /c?t=r8828448&ct… https://favrskov.dk/sites/default/files/borgerraadgiver_enkeltside…
# 4 Kombineret stilling som forebyggelseskonsulent o… /c?t=r8828382&ct… https://www.qeqqata.gl/Ledig_stillinger/2020/04/Forebyggelseskonsu…
# 5 Stilling som koordinerende sagsbehandler for ung… /c?t=h972855&ctx… http://www.solrod.dk/
# 6 Sagsbehandler til jobafklarings- og ressourcefor… /c?t=h972838&ctx… http://www.solrod.dk/
# 7 2-3 skolesekretærer søges til landsbyordningerne… /c?t=r8827011&ct… https://www.skolejobs.dk/stilling/landsbyordningerne-i-odder-kommu…
# 8 Overassistent i Vejledning ved Majoriaq i Sisimi… /c?t=r8825989&ct… https://www.qeqqata.gl/Ledig_stillinger/2020/03/Overassistent_vejl…
# 9 Generalist /c?t=r8824808&ct… https://naalakkersuisut.emply.net/recruitment/vacancyAd.aspx?publi…
# 10 Administrativ medarbejder til Små og mellemstore… /c?t=h972425&ctx… https://www.sktst.dk/
# 11 Akademiker til Stab og Udviklingsopgaver /c?t=r8824111&ct… https://www.ofir.dk/resultat/akademiker-til-stab-og-udviklingsopga…
# 12 2 dygtige og motiverede administrative medarbejd… /c?t=h972318&ctx… https://phabsalon.dk/
# 13 Tjenestefordeler – Trafikstyring Øst /c?t=h972077&ctx… http://www.banedanmark.dk/
# 14 Planlægningskonsulent søges til Psykiatrien /c?t=r8821953&ct… https://rm.emply.net/recruitment/vacancyAd.aspx?publishingId=a81f5…
# 15 Fundraiser /c?t=r8821594&ct… https://www.jobindex.dk/jobannonce/jobnet/8821594
# 16 Projektleder i Borgmesterens Afdeling som vil ta… /c?t=r8820419&ct… https://www.jobindex.dk/jobannonce/jobnet/8820419
# 17 Administrativ medarbejder til Borger- og retssik… /c?t=h971668&ctx… https://candidate.hr-manager.net/ApplicationInit.aspx?cid=5001&Pro…
# 18 Kollega til Myndighed Handicap- og psykiatriafde… /c?t=r8818554&ct… https://www.ofir.dk/resultat/kollega-til-myndighed-handicap-og-psy…
# 19 Energiplanlægger søges til By, Kultur og Miljøse… /c?t=r8818534&ct… https://www.ofir.dk/resultat/energiplanlaegger-soeges-til-by-kultu…
# 20 Akademisk medarbejder til Regionspsykiatrien Ran… /c?t=r8819996&ct… https://www.ofir.dk/resultat/akademisk-medarbejder-til-regionspsyk…
我正在尝试使用网站上的一些特定过滤器来抓取丹麦的职位发布档案。当我尝试抓取所有标题及其 link 时,我可以获得标题但不是 link。我尝试过不同的选择器,但没有任何选择 links。 CSS 选择器“.jix_job_archived > a b , #result_list_box strong” 选择所有标题。 对于提供的站点,第一个 link 应该是:https://www.jobindex.dk/c?t=r8830962&ctx=w
我附上了一张我想抓取屏幕右侧标记的 "href" 的网站的图片。
library(rvest)
library(tibble)
sel<- ".jix_job_archived > a b , #result_list_box strong"
jobindex <- "https://www.jobindex.dk/jobsoegning/kontor/offentlig?jobage=archive&maxdate=20200330&mindate=19901230"
tbl <- tibble(text = pg
%>% html_nodes(css = sel) %>%
html_text(), link = pg %>% html_nodes(css = sel) %>% html_attr('href'))
view(tbl)
**# A tibble: 20 x 2
text link
<chr> <chr>
1 Administrativ medarbejder/sekretær til stabsfunktion NA
2 Meeqqeriviup_igaffia_inuussutissanut_ikiortimik_pissarsiorpoq NA **
Link 在 <strong>
标签之外。因此,如果您为 html_nodes
提供选择器 ".jix_job_archived > a b , #result_list_box strong"
,则不会选择 link。
这可能会有所帮助。
library(rvest)
library(tibble)
jobindex <- "https://www.jobindex.dk/jobsoegning/kontor/offentlig?jobage=archive&maxdate=20200330&mindate=19901230"
jobnodes <- jobindex %>%
read_html %>%
html_nodes(".jobsearch-result")
text <- jobnodes %>% html_text %>% trimws() %>% sub("(.*?)\n.*","\1",.)
link1 <- jobnodes %>% html_node("a") %>% html_attr("data-click")
link2 <- jobnodes %>% html_node("a") %>% html_attr("href")
tbl <- tibble(text = text, link1 = link1, link2 = link2)
输出
tbl
# # A tibble: 20 x 3
# text link1 link2
# <chr> <chr> <chr>
# 1 Administrativ medarbejder/sekretær til stabsfunk… /c?t=r8830962&ct… http://www.profiljob.dk/resultat/administrativ-medarbejdersekretae…
# 2 Meeqqeriviup_igaffia_inuussutissanut_ikiortimik_… /c?t=r8831043&ct… https://www.qeqqata.gl/Ledig_stillinger/2020/04/Meeqqeriviup_igaff…
# 3 Borgerrådgiver /c?t=r8828448&ct… https://favrskov.dk/sites/default/files/borgerraadgiver_enkeltside…
# 4 Kombineret stilling som forebyggelseskonsulent o… /c?t=r8828382&ct… https://www.qeqqata.gl/Ledig_stillinger/2020/04/Forebyggelseskonsu…
# 5 Stilling som koordinerende sagsbehandler for ung… /c?t=h972855&ctx… http://www.solrod.dk/
# 6 Sagsbehandler til jobafklarings- og ressourcefor… /c?t=h972838&ctx… http://www.solrod.dk/
# 7 2-3 skolesekretærer søges til landsbyordningerne… /c?t=r8827011&ct… https://www.skolejobs.dk/stilling/landsbyordningerne-i-odder-kommu…
# 8 Overassistent i Vejledning ved Majoriaq i Sisimi… /c?t=r8825989&ct… https://www.qeqqata.gl/Ledig_stillinger/2020/03/Overassistent_vejl…
# 9 Generalist /c?t=r8824808&ct… https://naalakkersuisut.emply.net/recruitment/vacancyAd.aspx?publi…
# 10 Administrativ medarbejder til Små og mellemstore… /c?t=h972425&ctx… https://www.sktst.dk/
# 11 Akademiker til Stab og Udviklingsopgaver /c?t=r8824111&ct… https://www.ofir.dk/resultat/akademiker-til-stab-og-udviklingsopga…
# 12 2 dygtige og motiverede administrative medarbejd… /c?t=h972318&ctx… https://phabsalon.dk/
# 13 Tjenestefordeler – Trafikstyring Øst /c?t=h972077&ctx… http://www.banedanmark.dk/
# 14 Planlægningskonsulent søges til Psykiatrien /c?t=r8821953&ct… https://rm.emply.net/recruitment/vacancyAd.aspx?publishingId=a81f5…
# 15 Fundraiser /c?t=r8821594&ct… https://www.jobindex.dk/jobannonce/jobnet/8821594
# 16 Projektleder i Borgmesterens Afdeling som vil ta… /c?t=r8820419&ct… https://www.jobindex.dk/jobannonce/jobnet/8820419
# 17 Administrativ medarbejder til Borger- og retssik… /c?t=h971668&ctx… https://candidate.hr-manager.net/ApplicationInit.aspx?cid=5001&Pro…
# 18 Kollega til Myndighed Handicap- og psykiatriafde… /c?t=r8818554&ct… https://www.ofir.dk/resultat/kollega-til-myndighed-handicap-og-psy…
# 19 Energiplanlægger søges til By, Kultur og Miljøse… /c?t=r8818534&ct… https://www.ofir.dk/resultat/energiplanlaegger-soeges-til-by-kultu…
# 20 Akademisk medarbejder til Regionspsykiatrien Ran… /c?t=r8819996&ct… https://www.ofir.dk/resultat/akademisk-medarbejder-til-regionspsyk…