抓取抓取并跟踪href中的链接

sulav_lfc

我是新手。我需要从网址的首页开始跟随href到多个深度。再次在href链接中,我有多个href。我需要遵循这些href,直到到达我想要的页面才能抓取。我页面的示例html是:

初始页

<div class="page-categories">
 <a class="menu"  href="/abc.html">
 <a class="menu"  href="/def.html">
</div>

内部abc.html

<div class="cell category" >
 <div class="cell-text category">
 <p class="t">
  <a id="cat-24887" href="fgh.html"/>
</p>
</div>

我需要从此fgh.html页面中抓取内容任何人都可以建议我从哪里开始。我阅读了有关Linkextractors的信息,但没有找到合适的参考开始。谢谢

ec

从我看来,我可以这样说:

  • 产品类别的网址始终以 .kat
  • 产品的URL包含id_后跟一组数字

让我们使用此信息来定义我们的蜘蛛rules

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor


class CodeCheckspider(CrawlSpider):
    name = "code_check"

    allowed_domains = ["www.codecheck.info"]
    start_urls = ['http://www.codecheck.info/']

    rules = [
        Rule(LinkExtractor(allow=r'\.kat$'), follow=True),
        Rule(LinkExtractor(allow=r'/id_\d+/'), callback='parse_product'),
    ]

    def parse_product(self, response):
        title = response.xpath('//title/text()').extract()[0]
        print title

换句话说,我们要求Spider遵循每个类别链接,并在爬网包含以下内容的链接时让我们知道id_-对我们而言,这意味着我们找到了产品-在这种情况下,为了举例说明,在控制台上打印页面标题。这应该为您提供一个良好的起点。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Python抓取fetech href链接

来自分类Dev

Python从href链接中抓取电子邮件地址

来自分类Dev

在 Python 中抓取 <a href> 标签

来自分类Dev

Scrapy:抓取角度ng-href链接?

来自分类Dev

在抓取的href链接之前添加“ https:”?

来自分类Dev

PHP从表中抓取链接

来自分类Dev

从 R 中的链接抓取表格

来自分类Dev

抓取,抓取链接,然后抓取页面

来自分类Dev

Scrapy:抓取嵌入在 href 中的文本

来自分类Dev

抓取页面中的所有链接

来自分类Dev

使用BeautifulSoup从网页中抓取特定链接

来自分类Dev

如何使用BeautifulSoup在HTML中抓取链接

来自分类Dev

从网页中抓取选择性链接

来自分类Dev

如何在 Scrapy 中抓取分页链接?

来自分类Dev

使用BeautifulSoup + Python在href内抓取超链接

来自分类Dev

使用 Python 抓取网页时从链接中提取 href

来自分类Dev

如何使用 lxml 抓取表格并获取 href 链接?

来自分类Dev

HtmlAgilityPack抓取“ href”

来自分类Dev

抓取,在Javascript中抓取数据

来自分类Dev

从多个链接抓取数据

来自分类Dev

Scrapy抓取提取的链接

来自分类Dev

如何从Faceit抓取链接

来自分类Dev

Scrapy抓取提取的链接

来自分类Dev

抓取:从AngularJs网站和抓取中提取所有文本和链接(href和ng-href)

来自分类Dev

抓取:抓取的链接-现在无法抓取html文件并将其转储到文件夹中

来自分类Dev

无法使用python和beautifulsoup抓取网页中的某些href

来自分类Dev

使用beautifulSoup在<a href>中抓取文本时,结果变为空

来自分类Dev

由于< td中的href,漂亮的刮不抓取列数据

来自分类Dev

如何从R中的搜索框中抓取URL链接?