网站抓取以获得面包屑类别
Website scraping to get breadcrumb categories
我正在使用 c# win 表单应用程序进行网站抓取,我试图在面包屑中获取每个标题 html。我的 html 代码为
<div>
<span class="title">Home</span>
<span class="sep">/</span>
<span class="title">Cat1</span>
<span class="sep">Home</span>
<span class="title">Cat2</span>
<span class="sep">/</span>
<span class="title">Cat3</span>
</div>
以上html为字符串格式。我想检索类别,即 Cat1 到 Cat3 以在 excel 文件中写入类别。我如何使用正则表达式从字符串中获取这 3 个类别。
怎么样:
title">(.*?)<
使用以下正则表达式匹配您的字符串。
title">(.+)<
但是请记住:
它将匹配 Home 作为您的第一个捕获组。
在您的 C# 代码中,使用匹配对象的 属性 .Groups(1)
到 return 第一个捕获组。 Groups(0)
会 return 整场比赛。
确保跳过第一个匹配项以获得 Cat1、Cat2 和 Cat3。
不用说,您的正则表达式对象必须处理多行。
演示 here.
我正在使用 c# win 表单应用程序进行网站抓取,我试图在面包屑中获取每个标题 html。我的 html 代码为
<div>
<span class="title">Home</span>
<span class="sep">/</span>
<span class="title">Cat1</span>
<span class="sep">Home</span>
<span class="title">Cat2</span>
<span class="sep">/</span>
<span class="title">Cat3</span>
</div>
以上html为字符串格式。我想检索类别,即 Cat1 到 Cat3 以在 excel 文件中写入类别。我如何使用正则表达式从字符串中获取这 3 个类别。
怎么样:
title">(.*?)<
使用以下正则表达式匹配您的字符串。
title">(.+)<
但是请记住:
它将匹配 Home 作为您的第一个捕获组。
在您的 C# 代码中,使用匹配对象的 属性 .Groups(1)
到 return 第一个捕获组。 Groups(0)
会 return 整场比赛。
确保跳过第一个匹配项以获得 Cat1、Cat2 和 Cat3。
不用说,您的正则表达式对象必须处理多行。