如何使用 Apify SDK 自动选择 javascript 选项来抓取网站

How to use Apify SDK to automate selecting a javascript option to crawl a website

我已经阅读了关于使用 Apify SDK 抓取网站的优秀文档,但需要一点帮助,因为 PuppeteerCrawler 的指南尚未完成

我要抓取的网站部分是成员目录。主页(我相信我需要以 RequestList 的形式提供)包含目录前 50 个成员的链接。要获得接下来的 50 个成员,有一个如下所示的选项框:

<span id="foo">Show:<select onchange="bar.pagerChanged(this);">
<option value="0">1-50</option>
<option value="50">51-100</option>
<option value="100">101-150</option>
...
<option value="2400">2401-2450</option>
</select>
</span>

我不确定我将如何处理这个问题,除了我认为我需要 PuppeteerCrawler 给定用户输入(点击带有 id="foo" 的选项)是必须的。我需要做的是从首页开始,将所有 50 个链接添加到 RequestQueue,然后 select 下一批 50 个成员,然后冲洗并重复。

我不太确定页面的详细信息,但您可以 select 像这样使用 Puppeteer 轻松选择任何选项

// First is selector to the select element and second is value of the option
await page.select('#foo select', '50');

在极少数情况下,这不起作用。然后可以通过直接单击 select 然后简单地使用

显示的元素之一来解决
await page.click('#foo select');
await page.waitFor(200);
await page.click('selector-for-on-of-the-element-that-popped-up');

如果每个选项里面都有链接,你可以做简单的笑

const batchSize = 50;
for (let i = 0; i < totalMembers; i += 50) {
    await page.select('#foo select', `${i}`); // i needs to be converted to a string
    const links = extractLinks(); // implement
    for (const url of links) {
        await requestQueue.addRequest({ url });
    }
}