调用外部 api 的最佳实践是什么？

debugcn 发表于 Dev

用户1507889

因此，假设我想编写一个使用 Facebook API 计算网站每个页面上的赞的蜘蛛。如果我导入请求库，我可以调用 Facebook 图形 API，如下所示。

import scrapy
import json
import requests

API_KEY="KEY_GOES_HERE"

class WebSite(scrapy.Spider):
    name = "website_page"
    allowed_domains = ["website.com"]
    start_urls = ['https://website.com/']
    def get_likes(self,url):
      base='https://graph.facebook.com/{}?access_token={}'.format(url,API_KEY)
      data=requests.get(base)
      return self.parse_likes(data)
    def parse_likes(self, data):
      data = json.loads(data.text)
      return data['id'],data['share']['comment_count'],data['share']['share_count']

    def parse(self, response):
        item= {}
        item['url'] = response.url
        links = response.css('a::attr(href)').extract()
        item['fb_url'],item['shares'],item['comments'] = self.get_likes(response.url)
        for link in links: 
          link = response.urljoin(link)
          item['link'] = link
          yield scrapy.Request(link, callback=self.parse)
        yield item

但是，如果我不使用请求，而是使用 scrapy.Request 调用，我似乎无法使此代码工作。像这样的东西。

import scrapy
import json
import requests

API_KEY="KEY_GOES_HERE"

class WebSite(scrapy.Spider):
    name = "website_page"
    allowed_domains = ["website.com"]
    start_urls = ['https://website.com/']
    def get_likes(self,url):
      base='https://graph.facebook.com/{}?access_token={}'.format(url,API_KEY)
      return scrapy.Request(base,callback=self.parse_likes)
    def parse_likes(self, data):
      data = json.loads(data.text)
      return data['id'],data['share']['comment_count'],data['share']['share_count']

    def parse(self, response):
        item= {}
        links = response.css('a::attr(href)').extract()
        item['url'] = response.url
        item['fb_data']=self.get_likes(response.url).body
        for link in links: 
          link = response.urljoin(link)
          item['link'] = link
          yield scrapy.Request(link, callback=self.parse)
        yield item

在这种情况下，我只收到 Facebook 数据的空白响应。我想我对scrapy.Request 方法相对于标准请求库的工作方式缺乏一些了解。有任何想法吗？

花岗岩龙

这是一个非常常见的情况：如何从多个 url 的项目中产生？
最常见的解决方案是通过在request.meta参数中携带您的项目来链接请求。

对于您使用此逻辑的示例实现，可能如下所示：

class WebSite(scrapy.Spider):
    base='https://graph.facebook.com/{}?access_token={}'.format
    api_key = '1234'

    def parse(self, response):
        links = response.css('a::attr(href)').extract()
        for link in links: 
            item= {}
            item['url'] = response.url
            item['fb_data']=self.get_likes(response.url).body
            item['link'] = response.urljoin(link)
            api_url = self.base(self.api_key, link)
            yield scrapy.Request(api_url,
                                 callback=self.parse_likes, 
                                 meta={'item': item})

    def parse_likes(self, response):
        item = response.meta['item']
        data = json.loads(data.text)
        share_count = data['id'],data['share']['comment_count'],data['share']['share_count']
        item['share_count'] = share_count
        yield item

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。