Scrapy-无法获取表中的值

深呼吸

这是HTML页面

这是我的代码

import scrapy

class get_taiex(scrapy.Spider):
    name='get_taiex'
    def start_requests(self):
        url ='https://www.twse.com.tw/indicesReport/MI_5MINS_HIST?response=html&date=20191101'
        yield scrapy.Request(url, callback=self.parse)

    def parse(self, response):
        for row in response.xpath('//tbody/tr'):
            yield {
                'date' : row.xpath('td[1]/text()').extract_first(),
                'open' : row.xpath('td[2]/text()').extract_first(),
                'high' : row.xpath('td[3]/text()').extract_first(),
                'low' : row.xpath('td[4]/text()').extract_first(),
                'close' : row.xpath('td[5]/text()').extract_first()
            }

我不知道为什么它不起作用

此页面上工作正常

区别只是div标签

我将其用于json输出

抓取抓取get_taiex -o output.json -t json

谢谢。

莫恩·卡梅利(Moein Kameli)

您可能使用的新版本scrapy会Forbidden by robots.txt因此而空,response因此您需要在您的中进行更改setting.py

ROBOTSTXT_OBEY = False

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章