如何通过无限滚动正确地抓取网页？

Question

我该如何从无限滚动的网站抓取数据？

我想做的是从 Google Play Store(https://play.google.com/store/apps/category/GAME/collection/topselling_free?hl=en) 获取所有数据。

我正在使用 Apify(https://www.apify.com/) 来浏览 Google Play 商店；我想获取 'Top Free in games' 的所有链接，然后获取热门游戏的所有标题和详细信息。

不幸的是，当用户滚动到页面底部时，页面加载了新数据，我不知道如何获取新数据。

这是我的页面功能：

function pageFunction(context) {
var $ = context.jQuery;
if (context.request.label === "DETAIL") {
    context.skipLinks();
    if($('.details-info .info-container .info-box-top .document-title .id-app-title').length >= 1) {
        return {
            title: $('.details-info .info-container .info-box-top .document-title .id-app-title').text(),
            publisher: $('.details-info .info-container .info-box-top .document-subtitles .primary').text(),
            genre: $('.details-info .info-container .info-box-top .document-subtitles .category').text(),
            rating: $('.details-wrapper .details-section .rating-box .score').text()
        };
    }
} else {
    context.skipOutput();
    $.post("https://play.google.com/store/apps/category/GAME/collection/topselling_free?hl=en&authuser=0");
}

}

如何加载额外的游戏并获取它们的链接，以便我可以在游戏页面上获取它们的详细信息？

非常感谢示例或示例代码。

Answer 1

在高级设置下有一个名为无限滚动高度的选项可以从无限滚动中抓取内容。检查 Apify documentation

如何通过无限滚动正确地抓取网页？

How to properly crawl through webpage with infinite scroll?

javascript

ajax

jquery

web-crawler

apify