搜索

搜索

使用请求进行身份验证后的Web抓取

debugcn 发表于 Dev

26

nino11

我在Python 3.9中执行网络抓取脚本。

我想从该网站收集一些信息：https : //www.matchendirect.fr/。这个网站是法文，但我认为尝试帮助我不是一个真正的问题。

我需要的信息是鼠标在“ Pronostics des internautes”部分中显示的数组。HTML代码以开头：<table class="table table-bordered MEDtpro">

我已经重新创建了cookie，并在浏览器上模拟了我的连接，方法是按照本文的答案进行操作，该方法如何使用urllib发送cookie，但是没有用。

这是我的代码：

#!/usr/bin/python3
# -*- coding: utf-8 -*-
import requests

cookies = {
    'PHPSESSID': 'a2q4evve875s1ibamiqmc93ru6',
    'c_compte_cle': '76598fbd4fe763e768dc79275c02e11f',
    'c_compte_id':'311084',
    'c_compte_pseudo':'foobar',
    'c_compte_url_image':'%2Fimage%2Fcommun%2Fmembre-med-t16.png',
    'c_coucours_promo':'3'
    }
headers = {'User-Agent': 'Mozilla/5.0'}


link = "https://www.matchendirect.fr/live-score/caen-toulouse.html"

response = requests.get(link, cookies=cookies, headers=headers)
webpage = response.text

print("Success!") if webpage.find('<table class="table table-bordered MEDtpro">')>-1 else print("Failed!")

有人可以帮我解决这个问题吗？

这个帐户是一个垃圾帐户，适合想要测试的用户。

耶娃

您要查找的内容由AJAX请求更新。您可以通过将请求发送到AJAXURL来查找数据。

#!/usr/bin/python3
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup


link = "https://www.matchendirect.fr/live-score/caen-toulouse.html"

response = requests.get(link)
soup = BeautifulSoup(response.content, "html.parser")
f_id_match = soup.find("input", {"name": "f_pronostic_id_match"})["value"]


data_response = requests.get("https://www.matchendirect.fr/cgi/ajax/liste_pronostic.php?f_id_match={}&f_id_grille=".format(f_id_match))
webpage = data_response.text


print("Success!") if webpage.find('<table class="table table-bordered MEDtpro">')>-1 else print("Failed!")

您需要f_id_match从页面中查找，然后向该AJAX网址发送新请求以查找所需内容。

不要设置Cookie来模仿浏览器，请使用requests.Session()来创建类似浏览器的会话，然后尝试在网址之间导航

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-6

0

我来说两句

0条评论

登录后参与评论

相关文章

来自分类Dev

使用Python请求进行Cookie身份验证

来自分类Dev

使用Java http请求进行Twitch身份验证

来自分类Dev

尝试使用节点请求进行身份验证

来自分类Dev

如何使用Passport / Facebook策略/对Supertest请求进行身份验证？

来自分类Dev

外部身份验证提供程序和对 RESTful API 的请求进行身份验证

来自分类Dev

使用Windows身份验证对MVC4站点上的HTTP请求进行角度验证

来自分类Dev

使用lxml和请求进行Web抓取

来自分类Dev

使用Python脚本响应中的请求进行Web抓取

来自分类Dev

表单验证后使用ajax请求进行cfform验证

来自分类Dev

使用 python 请求进行身份验证 - Cookies ？有效载荷？还有什么？

来自分类Dev

如何在ASP.NET MVC + Forms身份验证中对Ajax请求进行身份验证

来自分类Dev

Azure API服务器无法对请求进行身份验证

来自分类Dev

在.NET中对Mandrill入站Webhook请求进行身份验证

来自分类Dev

如何通过AAD对Azure服务管理请求进行身份验证

来自分类Dev

对findsequence服务请求进行身份验证HERE Maps API

来自分类Dev

针对Wordpress对node.js中的请求进行身份验证

来自分类Dev

在.NET中对Mandrill入站Webhook请求进行身份验证

来自分类Dev

让我们通过Ajax请求进行聊天身份验证

来自分类Dev

Amazon Sage Maker：如何对 AWS SageMaker 端点请求进行身份验证

来自分类Dev

Azure 服务器无法对请求进行身份验证

来自分类Dev

使用Scrapy进行NTLM身份验证以进行网络抓取

来自分类Dev

使用Cookie进行网络抓取进行身份验证？

来自分类Dev

有没有办法对远程会话进行身份验证以抓取数据并保持身份验证而不是在每个请求中进行身份验证？

来自分类Dev

客户端身份验证方案“匿名”对HTTP请求进行了未经授权的访问（通过C＃基本身份验证写入）

来自分类Dev

为什么我必须发送两个连续的HTTP Get请求进行身份验证？

来自分类Dev

如何知道用户是否通过 firebase 的第一个请求进行了身份验证

来自分类Dev

无法对 dialogflow v2 和 v2beta1 上的 REST API 请求进行身份验证

来自分类Dev

用户通过Google Web应用程序进行身份验证后，获取并使用访问令牌

来自分类Dev

通过POST使用请求库进行python身份验证

Related 相关文章

文章

热门标签

归档