网站抓取以获得面包屑类别

尼丁·瓦尔佩(Nitin Varpe)

我正在使用C#Win Form应用程序进行网站抓取,我正在尝试在面包屑html中获取每个标题。用我的HTML代码作为

<div>
<span class="title">Home</span>
<span class="sep">/</span>
<span class="title">Cat1</span>
<span class="sep">Home</span>
<span class="title">Cat2</span>
<span class="sep">/</span>
<span class="title">Cat3</span>
</div>

上面的html是字符串格式。我想检索类别,即Cat1到Cat3,以便在excel文件中编写类别。如何使用正则表达式从字符串中获取这3个类别。

阿门·吉利(Amen Jlili)

使用以下正则表达式匹配您的字符串。

title">(.+)<

但是请记住:

它将与“家”匹配为您的第一个捕获组。

在您的C#代码中,使用.Groups(1)match对象的属性返回第一个捕获组。Groups(0)将返回整个比赛。

确保跳过第一个匹配项以获取Cat1Cat2Cat3

不用说,您的正则表达式对象必须处理多行。

演示在这里

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何禁用面包屑?

来自分类Dev

如何使面包屑响应?

来自分类Dev

流星面包屑

来自分类Dev

面包屑的动态宽度

来自分类Dev

动态生成面包屑

来自分类Dev

(逻辑)职位的面包屑。我有category_id。足以显示类别名称吗?

来自分类Dev

面包屑和Backbone.Marionette

来自分类Dev

Woocommerce面包屑多个类别

来自分类Dev

面包屑的新功能

来自分类Dev

面包屑和子类别

来自分类Dev

在单个查询中具有LIKE的递归SELECT类别面包屑

来自分类Dev

修改后的Sitecore面包屑

来自分类Dev

将类别的PHP数组转换为多个子类别的HTML面包屑

来自分类Dev

我如何在TYPO3的Extbase Frontent插件中获得根线/面包屑

来自分类Dev

带有孩子列表(类别或页面)的自定义面包屑

来自分类Dev

在Google Drive API中搜索文件或文件夹时如何获得面包屑?

来自分类Dev

PHP面包屑

来自分类Dev

MVC网站地图CurrentNode为null,没有面包屑

来自分类Dev

(逻辑)职位面包屑。我有category_id。足以显示类别名称吗?

来自分类Dev

如何获得Joomla面包屑的价值?

来自分类Dev

面包屑包装

来自分类Dev

如何在magento的面包屑页面中显示类别描述?

来自分类Dev

动态面包屑网址

来自分类Dev

使用jQuery在面包屑导航中隐藏网站集

来自分类Dev

面包屑的新功能

来自分类Dev

如何从Yoast面包屑中删除父类别

来自分类Dev

在面包屑中显示当前类别名称(使用angularJS)

来自分类Dev

PHP面包屑循环

来自分类Dev

带参数的面包屑