正在抓取 javascript 个下拉列表

crawling javascript drop down lists

我正在尝试为我的学校制作一个关于 COVID 的信息图,以提高人们的认识。我 运行 遇到的问题是网页没有文本信息。相反,下拉菜单是由 javascript.

制作的

这是站点:https://www.nga.org/coronavirus-state-actions-all/#NE

我可以通过哪些方式解析此页面?

在启用 JavaScript 的情况下抓取网站时,最好在浏览器上下文中进行。

  1. 您可以访问该站点,在脚本加载后将其粘贴到控制台,然后使用 copy(result) 将脚本的结果复制到剪贴板。

  2. 在 NodeJS 中使用 puppeteer 来自动化浏览器会话。 Puppeteer 是一个无头的 Chrome,可以评估 JavaScript,您可以利用 NodeJS 将抓取的结果写入文件。

根据您需要执行此操作的频率(以及网站更改您的标记的频率 select),可能 faster/easier 首先实施选项 1,即使它只是半自动化。