使用 xpath 和正则表达式获取单个链接上的文本

Question

我正在做一个 scrapy 项目，我们正在抓取一个新闻网站。有一个包含站点标签的 div，它可能有多个链接。例如：

<div class="article__tags">
<a href="/example/ops.html">
OPS
</a>
<a href="/example/covid-19.html">
Covid-19
</a>
<a href="/example/usa.html">
USA
</a>
</div>

我正在尝试获取 individual 标签。我是这样做的：

tags = html.xpath(
            '//div[@class="article__tags"]/a/text()').re('(\w+)')

在上面的示例中，我得到了以下标签：运营商美国冠状病毒 19 这是不正确的，因为 covid 和 19 是同一个标签。 ¿如何使链接文本正确？

谢谢

Answer 1

我设法通过将其更改为

来做到这一点

tags = html.xpath(
        '//div[@class="article__tags"]/a/text()').extract()

使用 xpath 和正则表达式获取单个链接上的文本

Get text on individual links using xpath and regex

html

python

regex

scrapy

web-scraping