这是HTML页面
这是我的代码
import scrapy
class get_taiex(scrapy.Spider):
name='get_taiex'
def start_requests(self):
url ='https://www.twse.com.tw/indicesReport/MI_5MINS_HIST?response=html&date=20191101'
yield scrapy.Request(url, callback=self.parse)
def parse(self, response):
for row in response.xpath('//tbody/tr'):
yield {
'date' : row.xpath('td[1]/text()').extract_first(),
'open' : row.xpath('td[2]/text()').extract_first(),
'high' : row.xpath('td[3]/text()').extract_first(),
'low' : row.xpath('td[4]/text()').extract_first(),
'close' : row.xpath('td[5]/text()').extract_first()
}
我不知道为什么它不起作用
在此页面上工作正常
区别只是div标签
我将其用于json输出
抓取抓取get_taiex -o output.json -t json
谢谢。
您可能使用的新版本scrapy会Forbidden by robots.txt
因此而空,response
因此您需要在您的中进行更改setting.py
:
ROBOTSTXT_OBEY = False
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句