HTTP错误999：请求被拒绝

Deepayan 发表于 Dev

迪帕延

我正在尝试使用BeautifulSoup从LinkedIn上抓取一些网页，并且不断收到错误“ HTTP错误999：请求被拒绝”。有没有办法避免此错误。如果您查看我的代码，我已经尝试过Mechanize和URLLIB2，并且两者都给了我相同的错误。

from __future__ import unicode_literals
from bs4 import BeautifulSoup
import urllib2
import csv
import os
import re
import requests
import pandas as pd
import urlparse
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
from BeautifulSoup import BeautifulStoneSoup
import urllib
import urlparse
import pdb
import codecs
from BeautifulSoup import UnicodeDammit
import codecs
import webbrowser
from urlgrabber import urlopen
from urlgrabber.grabber import URLGrabber
import mechanize

fout5 = codecs.open('data.csv','r', encoding='utf-8', errors='replace')

for y in range(2,10,1):


    url = "https://www.linkedin.com/job/analytics-%2b-data-jobs-united-kingdom/?sort=relevance&page_num=1"

    params = {'page_num':y}

    url_parts = list(urlparse.urlparse(url))
    query = dict(urlparse.parse_qsl(url_parts[4]))
    query.update(params)

    url_parts[4] = urllib.urlencode(query)
    y = urlparse.urlunparse(url_parts)
    #print y



    #url = urllib2.urlopen(y)
    #f = urllib2.urlopen(y)

    op = mechanize.Browser() # use mecahnize's browser
    op.set_handle_robots(False) #tell the webpage you're not a robot
    j = op.open(y)
    #print op.title()


    #g = URLGrabber()
    #data = g.urlread(y)
    #data = fo.read()
    #print data

    #html = response.read()
    soup1 = BeautifulSoup(y)
    print soup1

f43d65

尝试设置User-Agent标题。之后添加此行op.set_handle_robots(False)

op.addheaders = [('User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36")]

编辑：如果要抓取网站，请首先检查它是否具有处理API的API或库。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-21

我来说两句

0条评论

登录后参与评论

上一篇：Laravel-在更新时禁用更新时间

来自分类Dev

Nginx：如果头不存在或错误，则拒绝请求

来自分类Dev

HTTP错误404.15请求过滤模块配置为在查询字符串过长的情况下拒绝请求

来自分类Dev

Spring MVC 404错误http请求

来自分类Dev

Java HTTP获取对Facebook的请求。错误的请求

来自分类Dev

HTTPError：HTTP错误400：错误的请求

来自分类Dev

HTTP请求失败！HTTP / 1.1 400错误请求

来自分类Dev

来自iOS的自定义HTTP请求被拒绝

来自分类Dev

HTTP代理：拒绝半处理的请求

来自分类Dev

HTTP请求在PHP错误请求中失败

来自分类Dev

HTTP请求错误与响应错误

来自分类Dev

播放Scala：捕获HTTP JSON请求错误

来自分类Dev

错误域的HTTP请求

来自分类Dev

配置HAProxy拒绝/拒绝包含多个同名HTTP标头的请求

来自分类Dev

QT的HTTP请求错误，而CURL的请求良好

来自分类Dev

错误[7045]：请求的会话访问被拒绝。当运行2次

来自分类Dev

如何配置JBoss拒绝HTTPS端口上的HTTP请求

来自分类Dev

来自iOS的自定义HTTP请求被拒绝

来自分类Dev

如何在expressjs应用中拒绝HTTP请求？

来自分类Dev

如何在expressjs应用中拒绝HTTP请求？

来自分类Dev

HTTP错误400.0-错误的请求

来自分类Dev

HTTP请求：400错误

来自分类Dev

HTTP多部分请求出现400错误的请求错误

来自分类Dev

由于字符而导致的HTTP错误请求错误

来自分类Dev

如何修复 HTTP 错误 400：错误请求？

来自分类Dev

错误的 http 请求错误

来自分类Dev

带有证书的快速 REST 请求返回错误（代码 -999）

来自分类Dev

Swift Alamofire：错误 - 999

来自分类Dev

如何只接受HTTPS请求并拒绝HTTP？

来自分类Dev

带有两个 Spring Boot 应用程序的 Docker Compose 得到“消息”：“对 GET 请求的 I/O 错误 \”http://127.0.0.1:8010/....: 连接被拒绝”

Related 相关文章

文章