Scrapy 网络爬虫的 css 和 xpath 选择器 vs BeautifulSoup

Scrapy web crawler's css & xpath selectors vs BeautifulSoup

我在一个大型项目中使用 Scrapy，其中很大一部分计算用于解析网页。

我想知道 Scrapy 的 css 和 xpath 选择器是否针对最佳算法效率进行了优化，或者我应该使用恰好在内部使用 lxml 的 BeautifulSoup4。

嗯，如果你read the docs你可以看到：

Scrapy selectors are built over the lxml library, which means they’re very similar in speed and parsing accuracy.

这意味着如果您使用 Scrapy 来抓取数据，XPath 选择器的速度与 BS4 相同——并且您可以开箱即用地获得一些并行性，从而进一步加快您的任务。