特定元素的网络抓取选择器

Question

我是网络抓取的新手，我正在尝试使用 Scrapy 抓取以下网站的发布日期：https://m.imdb.com/title/tt0468569/?ref_=adv_li_tt

这是我正在使用的选择器：

//a[contains(@class,'ipc-metadata-list-item__list-content-item ipc-metadata-list-item__list-content-item--link')]/text()

它 returns 元素太多，我只想要发布数据字符串。

Answer 1

要 select 更具体并仅获取发布日期的文本，请像这样调整您的路径：

//li[contains(@data-testid,'title-details-releasedate')]//li/a/text()

它将 select 包含属性 data-testid 且值为 title-details-releasedate 的 <li>。因为这些包含两个 <a> 它专注于包含在另一个 <li>

中的 <a>

Web scraping selector for specific element