网站抓取以获得面包屑类别

Website scraping to get breadcrumb categories

我正在使用 c# win 表单应用程序进行网站抓取,我试图在面包屑中获取每个标题 html。我的 html 代码为

<div>
<span class="title">Home</span>
<span class="sep">/</span>
<span class="title">Cat1</span>
<span class="sep">Home</span>
<span class="title">Cat2</span>
<span class="sep">/</span>
<span class="title">Cat3</span>
</div>

以上html为字符串格式。我想检索类别,即 Cat1 到 Cat3 以在 excel 文件中写入类别。我如何使用正则表达式从字符串中获取这 3 个类别。

怎么样:

title">(.*?)<

使用以下正则表达式匹配您的字符串。

title">(.+)<

但是请记住:

它将匹配 Home 作为您的第一个捕获组。

在您的 C# 代码中,使用匹配对象的 属性 .Groups(1) 到 return 第一个捕获组。 Groups(0) 会 return 整场比赛。

确保跳过第一个匹配项以获得 Cat1Cat2Cat3

不用说,您的正则表达式对象必须处理多行。

演示 here.