如何使用 Stack Exchange API 获取不同年份的所有页面?
How to get all pages included in different years with the Stack Exchange API?
我想获取 Stack Overflow 网站上包含的所有带有特定标签的问题和评论。
使用 the API,我设法进行了一个简单的调用,但我想知道如何滚动页面以获取所有数据,甚至来自不同年份。
我正在尝试用标记为 python
的问题来做到这一点。
例如,这个 link returns 从 2019 年 7 月 1 日到 2019 年 7 月 5 日带有标签 python:
的所有问题
https://api.stackexchange.com/2.2/questions?fromdate=1561939200&todate=1562284800&order=desc&sort=activity&tagged=python&site=Whosebug
但是如果我想要 2015 年到 2019 年的所有数据,我可以包含这样的代码吗?
?page=10
我可以把它放在哪里?
There are 845 thousand python questions, from 2015 to 2019(到目前为止)。
那是 API 请求中的 8,454 页 -- 这与您的 max quota.
非常接近
此外,尝试一次获取那么多页面可能会触发 throttling or bugs.
因此,如果您下载the Data Dump, or ran paged queries against the Stack Exchange Data Explorer (SEDE) 大量数据,会更好。然后只需使用 API 获取自上次转储或 SEDE 更新以来的更改。
这两个主题都超出了这个问题的范围。 (之前在其他帖子中也提到过)。
要回答您的直接问题,您可以像这样翻阅结果:
我想获取 Stack Overflow 网站上包含的所有带有特定标签的问题和评论。
使用 the API,我设法进行了一个简单的调用,但我想知道如何滚动页面以获取所有数据,甚至来自不同年份。
我正在尝试用标记为 python
的问题来做到这一点。
例如,这个 link returns 从 2019 年 7 月 1 日到 2019 年 7 月 5 日带有标签 python:
https://api.stackexchange.com/2.2/questions?fromdate=1561939200&todate=1562284800&order=desc&sort=activity&tagged=python&site=Whosebug
但是如果我想要 2015 年到 2019 年的所有数据,我可以包含这样的代码吗?
?page=10
我可以把它放在哪里?
There are 845 thousand python questions, from 2015 to 2019(到目前为止)。
那是 API 请求中的 8,454 页 -- 这与您的 max quota.
非常接近
此外,尝试一次获取那么多页面可能会触发 throttling or bugs.
因此,如果您下载the Data Dump, or ran paged queries against the Stack Exchange Data Explorer (SEDE) 大量数据,会更好。然后只需使用 API 获取自上次转储或 SEDE 更新以来的更改。
这两个主题都超出了这个问题的范围。 (之前在其他帖子中也提到过)。
要回答您的直接问题,您可以像这样翻阅结果: