我是新手。我需要从网址的首页开始跟随href到多个深度。再次在href链接中,我有多个href。我需要遵循这些href,直到到达我想要的页面才能抓取。我页面的示例html是:
初始页
<div class="page-categories">
<a class="menu" href="/abc.html">
<a class="menu" href="/def.html">
</div>
内部abc.html
<div class="cell category" >
<div class="cell-text category">
<p class="t">
<a id="cat-24887" href="fgh.html"/>
</p>
</div>
我需要从此fgh.html页面中抓取内容。任何人都可以建议我从哪里开始。我阅读了有关Linkextractors的信息,但没有找到合适的参考开始。谢谢
从我看来,我可以这样说:
.kat
id_
后跟一组数字让我们使用此信息来定义我们的蜘蛛rules
:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
class CodeCheckspider(CrawlSpider):
name = "code_check"
allowed_domains = ["www.codecheck.info"]
start_urls = ['http://www.codecheck.info/']
rules = [
Rule(LinkExtractor(allow=r'\.kat$'), follow=True),
Rule(LinkExtractor(allow=r'/id_\d+/'), callback='parse_product'),
]
def parse_product(self, response):
title = response.xpath('//title/text()').extract()[0]
print title
换句话说,我们要求Spider遵循每个类别链接,并在爬网包含以下内容的链接时让我们知道id_
-对我们而言,这意味着我们找到了产品-在这种情况下,为了举例说明,在控制台上打印页面标题。这应该为您提供一个良好的起点。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句