如何从 R 中的网页中删除数据提取中的过滤器?
How to remove filter in data extraction from a web page in R?
我有一个 R 脚本,我在其中从网页中提取数据,该脚本运行正确,但我想删除具有 Instrument 列或从以下位置获取数据的过滤器:
我从中提取数据的页面如下所示,并且在工具栏中有一个过滤器
enter image description here
#脚本如下:
library(rvest)
urls.colombia.compra <- paste0("https://colombiacompra.gov.co/tienda-virtual-del-estado-colombiano/ordenes-compra?page=",
0:11,
"&number_order=&state=&entity=&tool=IAD%20Software%20I%20-%20Microsoft&date_to_=%20&date_from_=")
base.colombia.compra <- purrr::map_df(urls.colombia.compra, ~.x %>% read_html() %>% html_table)
base.colombia.compra
如何编辑 R 脚本以删除或应用过滤器?
您无法删除它并发出成功的请求,returns 所有记录。它不是可选的查询字符串参数,也没有我可以轻松发现的 all 参数值。估计是用来查询后台数据库的。
您必须传递其中一个下拉值。因此,我会抓取那些 instrumento
下拉值,然后生成所有组合,其中包括包含每个工具和页码等的 url。
我有一个 R 脚本,我在其中从网页中提取数据,该脚本运行正确,但我想删除具有 Instrument 列或从以下位置获取数据的过滤器:
我从中提取数据的页面如下所示,并且在工具栏中有一个过滤器
enter image description here
#脚本如下:
library(rvest)
urls.colombia.compra <- paste0("https://colombiacompra.gov.co/tienda-virtual-del-estado-colombiano/ordenes-compra?page=",
0:11,
"&number_order=&state=&entity=&tool=IAD%20Software%20I%20-%20Microsoft&date_to_=%20&date_from_=")
base.colombia.compra <- purrr::map_df(urls.colombia.compra, ~.x %>% read_html() %>% html_table)
base.colombia.compra
如何编辑 R 脚本以删除或应用过滤器?
您无法删除它并发出成功的请求,returns 所有记录。它不是可选的查询字符串参数,也没有我可以轻松发现的 all 参数值。估计是用来查询后台数据库的。
您必须传递其中一个下拉值。因此,我会抓取那些 instrumento
下拉值,然后生成所有组合,其中包括包含每个工具和页码等的 url。