使用 xpath 和正则表达式获取单个链接上的文本
Get text on individual links using xpath and regex
我正在做一个 scrapy 项目,我们正在抓取一个新闻网站。
有一个包含站点标签的 div,它可能有多个链接。
例如:
<div class="article__tags">
<a href="/example/ops.html">
OPS
</a>
<a href="/example/covid-19.html">
Covid-19
</a>
<a href="/example/usa.html">
USA
</a>
</div>
我正在尝试获取 individual 标签。
我是这样做的:
tags = html.xpath(
'//div[@class="article__tags"]/a/text()').re('(\w+)')
在上面的示例中,我得到了以下标签:
运营商
美国
冠状病毒
19
这是不正确的,因为 covid 和 19 是同一个标签。
¿如何使链接文本正确?
谢谢
我设法通过将其更改为
来做到这一点
tags = html.xpath(
'//div[@class="article__tags"]/a/text()').extract()
我正在做一个 scrapy 项目,我们正在抓取一个新闻网站。 有一个包含站点标签的 div,它可能有多个链接。 例如:
<div class="article__tags">
<a href="/example/ops.html">
OPS
</a>
<a href="/example/covid-19.html">
Covid-19
</a>
<a href="/example/usa.html">
USA
</a>
</div>
我正在尝试获取 individual 标签。 我是这样做的:
tags = html.xpath(
'//div[@class="article__tags"]/a/text()').re('(\w+)')
在上面的示例中,我得到了以下标签: 运营商 美国 冠状病毒 19 这是不正确的,因为 covid 和 19 是同一个标签。 ¿如何使链接文本正确?
谢谢
我设法通过将其更改为
来做到这一点tags = html.xpath(
'//div[@class="article__tags"]/a/text()').extract()