Scrapy 网络爬虫的 css 和 xpath 选择器 vs BeautifulSoup

Scrapy web crawler's css & xpath selectors vs BeautifulSoup

我在一个大型项目中使用 Scrapy,其中很大一部分计算用于解析网页。

我想知道 Scrapy 的 cssxpath 选择器是否针对最佳算法效率进行了优化,或者我应该使用恰好在内部使用 lxml 的 BeautifulSoup4

嗯,如果你read the docs你可以看到:

Scrapy selectors are built over the lxml library, which means they’re very similar in speed and parsing accuracy.

这意味着如果您使用 Scrapy 来抓取数据,XPath 选择器的速度与 BS4 相同——并且您可以开箱即用地获得一些并行性,从而进一步加快您的任务。