我正在使用C#Win Form应用程序进行网站抓取,我正在尝试在面包屑html中获取每个标题。用我的HTML代码作为
<div>
<span class="title">Home</span>
<span class="sep">/</span>
<span class="title">Cat1</span>
<span class="sep">Home</span>
<span class="title">Cat2</span>
<span class="sep">/</span>
<span class="title">Cat3</span>
</div>
上面的html是字符串格式。我想检索类别,即Cat1到Cat3,以便在excel文件中编写类别。如何使用正则表达式从字符串中获取这3个类别。
使用以下正则表达式匹配您的字符串。
title">(.+)<
但是请记住:
它将与“家”匹配为您的第一个捕获组。
在您的C#代码中,使用.Groups(1)
match对象的属性返回第一个捕获组。Groups(0)
将返回整个比赛。
确保跳过第一个匹配项以获取Cat1,Cat2和Cat3。
不用说,您的正则表达式对象必须处理多行。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句