如何使用 Apify SDK 自动选择 javascript 选项来抓取网站
How to use Apify SDK to automate selecting a javascript option to crawl a website
我已经阅读了关于使用 Apify SDK 抓取网站的优秀文档,但需要一点帮助,因为 PuppeteerCrawler 的指南尚未完成
我要抓取的网站部分是成员目录。主页(我相信我需要以 RequestList
的形式提供)包含目录前 50 个成员的链接。要获得接下来的 50 个成员,有一个如下所示的选项框:
<span id="foo">Show:<select onchange="bar.pagerChanged(this);">
<option value="0">1-50</option>
<option value="50">51-100</option>
<option value="100">101-150</option>
...
<option value="2400">2401-2450</option>
</select>
</span>
我不确定我将如何处理这个问题,除了我认为我需要 PuppeteerCrawler 给定用户输入(点击带有 id="foo"
的选项)是必须的。我需要做的是从首页开始,将所有 50 个链接添加到 RequestQueue
,然后 select 下一批 50 个成员,然后冲洗并重复。
我不太确定页面的详细信息,但您可以 select 像这样使用 Puppeteer 轻松选择任何选项
// First is selector to the select element and second is value of the option
await page.select('#foo select', '50');
在极少数情况下,这不起作用。然后可以通过直接单击 select 然后简单地使用
显示的元素之一来解决
await page.click('#foo select');
await page.waitFor(200);
await page.click('selector-for-on-of-the-element-that-popped-up');
如果每个选项里面都有链接,你可以做简单的笑
const batchSize = 50;
for (let i = 0; i < totalMembers; i += 50) {
await page.select('#foo select', `${i}`); // i needs to be converted to a string
const links = extractLinks(); // implement
for (const url of links) {
await requestQueue.addRequest({ url });
}
}
我已经阅读了关于使用 Apify SDK 抓取网站的优秀文档,但需要一点帮助,因为 PuppeteerCrawler 的指南尚未完成
我要抓取的网站部分是成员目录。主页(我相信我需要以 RequestList
的形式提供)包含目录前 50 个成员的链接。要获得接下来的 50 个成员,有一个如下所示的选项框:
<span id="foo">Show:<select onchange="bar.pagerChanged(this);">
<option value="0">1-50</option>
<option value="50">51-100</option>
<option value="100">101-150</option>
...
<option value="2400">2401-2450</option>
</select>
</span>
我不确定我将如何处理这个问题,除了我认为我需要 PuppeteerCrawler 给定用户输入(点击带有 id="foo"
的选项)是必须的。我需要做的是从首页开始,将所有 50 个链接添加到 RequestQueue
,然后 select 下一批 50 个成员,然后冲洗并重复。
我不太确定页面的详细信息,但您可以 select 像这样使用 Puppeteer 轻松选择任何选项
// First is selector to the select element and second is value of the option
await page.select('#foo select', '50');
在极少数情况下,这不起作用。然后可以通过直接单击 select 然后简单地使用
显示的元素之一来解决await page.click('#foo select');
await page.waitFor(200);
await page.click('selector-for-on-of-the-element-that-popped-up');
如果每个选项里面都有链接,你可以做简单的笑
const batchSize = 50;
for (let i = 0; i < totalMembers; i += 50) {
await page.select('#foo select', `${i}`); // i needs to be converted to a string
const links = extractLinks(); // implement
for (const url of links) {
await requestQueue.addRequest({ url });
}
}