我需要停止一个 import.io 爬虫并提取它到目前为止提取的数据。如何在不丢失数据的情况下做到这一点?
I need to stop an import.io crawler and extract the data it has pulled thus far. How do I do it without losing the data?
我正在使用 import.io 的批量查询功能来抓取 25K 个网址。它开始时很快,但在 10K 左右开始大幅减速。现在已经6个多小时了,19K了。不幸的是,我没有时间等到它完成,所以我需要处理到目前为止收集到的任何数据。
但是,我没有看到停止按钮或其他任何东西,我担心如果乱动太多会丢失数据。
感谢任何帮助,谢谢!
提取器软件根据网站服务页面的速度和一系列其他因素来加快和减慢速度,以确保站点有最佳机会获取所有数据;我们这样做是因为我们认为数据质量和覆盖范围是最重要的,所以我们不相信快速但质量低的数据集。毕竟你之前可能听说过 'rubbish in rubbish out' :)
以后,您可以通过 http://support.import.io/ 联系 development/support 团队寻求数据提取方面的帮助。
祝你好运
我正在使用 import.io 的批量查询功能来抓取 25K 个网址。它开始时很快,但在 10K 左右开始大幅减速。现在已经6个多小时了,19K了。不幸的是,我没有时间等到它完成,所以我需要处理到目前为止收集到的任何数据。
但是,我没有看到停止按钮或其他任何东西,我担心如果乱动太多会丢失数据。
感谢任何帮助,谢谢!
提取器软件根据网站服务页面的速度和一系列其他因素来加快和减慢速度,以确保站点有最佳机会获取所有数据;我们这样做是因为我们认为数据质量和覆盖范围是最重要的,所以我们不相信快速但质量低的数据集。毕竟你之前可能听说过 'rubbish in rubbish out' :)
以后,您可以通过 http://support.import.io/ 联系 development/support 团队寻求数据提取方面的帮助。
祝你好运