特定元素的网络抓取选择器

Web scraping selector for specific element

我是网络抓取的新手,我正在尝试使用 Scrapy 抓取以下网站的发布日期:https://m.imdb.com/title/tt0468569/?ref_=adv_li_tt

这是我正在使用的选择器:

//a[contains(@class,'ipc-metadata-list-item__list-content-item ipc-metadata-list-item__list-content-item--link')]/text()

它 returns 元素太多,我只想要发布数据字符串。

要 select 更具体并仅获取发布日期的文本,请像这样调整您的路径:

//li[contains(@data-testid,'title-details-releasedate')]//li/a/text()

它将 select 包含属性 data-testid 且值为 title-details-releasedate<li>。因为这些包含两个 <a> 它专注于包含在另一个 <li>

中的 <a>