特定元素的网络抓取选择器
Web scraping selector for specific element
我是网络抓取的新手,我正在尝试使用 Scrapy 抓取以下网站的发布日期:https://m.imdb.com/title/tt0468569/?ref_=adv_li_tt
这是我正在使用的选择器:
//a[contains(@class,'ipc-metadata-list-item__list-content-item ipc-metadata-list-item__list-content-item--link')]/text()
它 returns 元素太多,我只想要发布数据字符串。
要 select 更具体并仅获取发布日期的文本,请像这样调整您的路径:
//li[contains(@data-testid,'title-details-releasedate')]//li/a/text()
它将 select 包含属性 data-testid
且值为 title-details-releasedate
的 <li>
。因为这些包含两个 <a>
它专注于包含在另一个 <li>
中的 <a>
我是网络抓取的新手,我正在尝试使用 Scrapy 抓取以下网站的发布日期:https://m.imdb.com/title/tt0468569/?ref_=adv_li_tt
这是我正在使用的选择器:
//a[contains(@class,'ipc-metadata-list-item__list-content-item ipc-metadata-list-item__list-content-item--link')]/text()
它 returns 元素太多,我只想要发布数据字符串。
要 select 更具体并仅获取发布日期的文本,请像这样调整您的路径:
//li[contains(@data-testid,'title-details-releasedate')]//li/a/text()
它将 select 包含属性 data-testid
且值为 title-details-releasedate
的 <li>
。因为这些包含两个 <a>
它专注于包含在另一个 <li>
<a>