Scrapy 网络爬虫的 css 和 xpath 选择器 vs BeautifulSoup
Scrapy web crawler's css & xpath selectors vs BeautifulSoup
我在一个大型项目中使用 Scrapy,其中很大一部分计算用于解析网页。
我想知道 Scrapy 的 css
和 xpath
选择器是否针对最佳算法效率进行了优化,或者我应该使用恰好在内部使用 lxml 的 BeautifulSoup4
。
嗯,如果你read the docs你可以看到:
Scrapy selectors are built over the lxml library, which means they’re very similar in speed and parsing accuracy.
这意味着如果您使用 Scrapy 来抓取数据,XPath 选择器的速度与 BS4 相同——并且您可以开箱即用地获得一些并行性,从而进一步加快您的任务。
我在一个大型项目中使用 Scrapy,其中很大一部分计算用于解析网页。
我想知道 Scrapy 的 css
和 xpath
选择器是否针对最佳算法效率进行了优化,或者我应该使用恰好在内部使用 lxml 的 BeautifulSoup4
。
嗯,如果你read the docs你可以看到:
Scrapy selectors are built over the lxml library, which means they’re very similar in speed and parsing accuracy.
这意味着如果您使用 Scrapy 来抓取数据,XPath 选择器的速度与 BS4 相同——并且您可以开箱即用地获得一些并行性,从而进一步加快您的任务。