网站抓取以获得面包屑类别

Question

我正在使用 c# win 表单应用程序进行网站抓取，我试图在面包屑中获取每个标题 html。我的 html 代码为

<div>
<span class="title">Home</span>
<span class="sep">/</span>
<span class="title">Cat1</span>
<span class="sep">Home</span>
<span class="title">Cat2</span>
<span class="sep">/</span>
<span class="title">Cat3</span>
</div>

以上html为字符串格式。我想检索类别，即 Cat1 到 Cat3 以在 excel 文件中写入类别。我如何使用正则表达式从字符串中获取这 3 个类别。

Answer 1

怎么样：

title">(.*?)<

Answer 2

使用以下正则表达式匹配您的字符串。

title">(.+)<

但是请记住：

它将匹配 Home 作为您的第一个捕获组。

在您的 C# 代码中，使用匹配对象的属性 .Groups(1) 到 return 第一个捕获组。 Groups(0) 会 return 整场比赛。

确保跳过第一个匹配项以获得 Cat1、Cat2 和 Cat3。

不用说，您的正则表达式对象必须处理多行。

网站抓取以获得面包屑类别

Website scraping to get breadcrumb categories

html

c#

regex

web-scraping

演示 here.