http://domain.com/articles/page-number 와 같은 더 큰 URL의 일부로 "/ page-2"또는 "/ page-3"과 일치하는 정규 표현식이 필요합니다.
지금까지 다음 조합을 시도했습니다. '/ page- \ d' '/ page- \ d' '\ b / page- \ d \ b'
Scrapy 프로젝트의 start_urls 섹션에있는 규칙의 일부로 정규식을 사용하고 있습니다. 많은 제안을 주셔서 감사합니다. 다음은 코드 스 니펫입니다.
class NdtvXoloNewsItem(CrawlSpider):
name = "ndtvxolonews"
allowed_domains = ["http://gadgets.ndtv.com/tags/"]
start_urls = ["http://gadgets.ndtv.com/tags/xolo/articles"]
rules = [Rule(LinkExtractor(allow=['\b/page\-\d\b']))]
allowed_domains
도메인 이름이어야합니다. RegEx에 URL의 시작을 포함하여 특정 경로로 필터링 할 수 있습니다.
class NdtvXoloNewsItem(CrawlSpider):
name = "ndtvxolonews"
allowed_domains = ["gadgets.ndtv.com"]
start_urls = ["http://gadgets.ndtv.com/tags/xolo/articles"]
rules = [Rule(LinkExtractor(allow=['http://gadgets.ndtv.com/tags/.*/page\-\d+']))]
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다