Scrapy投稿データ

debugcn 投稿 Dev

フルドビラメン

PythonリクエストからScrapyに移行しているので、Instagramハッシュタグページの下部にあるボタンをクリックするPOSTリクエストを作成したいと思います。

cURLはこれです

curl "https://www.instagram.com/query/" -H "cookie: mid=VwBJIwAEAAGiVNY3epWm9pRgD9Ge; fbm_124024574287414=base_domain=.instagram.com; ig_pr=1; ig_vw=956; s_network=; fbsr_124024574287414=5HQEzU7XMqOLO4KeQMmSvyBcKsH2svemV1-nWIE4_iM.eyJhbGdvcml0aG0iOiJITUFDLVNIQTI1NiIsImNvZGUiOiJBUUQ0TnNLMjVCZmdvUFN4TjdfODNQaW81Z3U4MTNaZmZWVlNCcEdJNUdRWlczdmdfNGVXNXJyck5Sc3NXRFlSWjZiZEpWMU95V3hNUUcwSE9qMHItYlRiYk40VXpNZG5aLUJ5Zzk0VWZNSW1RZTd4R1JzTS1yaXRabmc0Z3FYNkpwbnF4b0VXajRPNEVGSDVoTXBCUFNHUGNHN0RHQ01uSjFLeXh1dllOc2cyaFpnSDFheVI0RUhMbE1nZGM4emVrNm9DXzdLa2s1TUoyYzhyYmEwWXo1VkI1bVVmS3NvLS11dXVxdjJlRmxFUHpYczVNQ3E1bW5BRk5IeWxxMG9veENQcXcwWUVLSnpsNnZSUzFReGUzQWpsQzFPU0cySU1QM0wwMGhUcnRraFF4ZEFhZElVMUtNNUw5VTRab2dlbjltdUFadkJjV0U3UUMxeTdibDRyTzhwWCIsImlzc3VlZF9hdCI6MTQ3NDkzODQ3MywidXNlcl9pZCI6IjEzNzc3ODgzNjkifQ; csrftoken=th33gPnvrsNS74reomY69ETfojX2avQ7" -H "origin: https://www.instagram.com" -H "accept-encoding: gzip, deflate, br" -H "accept-language: en-US,en;q=0.8" -H "user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36" -H "x-requested-with: XMLHttpRequest" -H "x-csrftoken: th33gPnvrsNS74reomY69ETfojX2avQ7" -H "x-instagram-ajax: 1" -H "content-type: application/x-www-form-urlencoded" -H "accept: */*" -H "referer: https://www.instagram.com/explore/tags/love/" -H "authority: www.instagram.com" --data "q=ig_hashtag(love)+"%"7B+media.after(J0HV-nGYwAAAF0HV-nGXAAAAFjgA"%"2C+10)+"%"7B"%"0A++count"%"2C"%"0A++nodes+"%"7B"%"0A++++caption"%"2C"%"0A++++code"%"2C"%"0A++++comments+"%"7B"%"0A++++++count"%"0A++++"%"7D"%"2C"%"0A++++comments_disabled"%"2C"%"0A++++date"%"2C"%"0A++++dimensions+"%"7B"%"0A++++++height"%"2C"%"0A++++++width"%"0A++++"%"7D"%"2C"%"0A++++display_src"%"2C"%"0A++++id"%"2C"%"0A++++is_video"%"2C"%"0A++++likes+"%"7B"%"0A++++++count"%"0A++++"%"7D"%"2C"%"0A++++owner+"%"7B"%"0A++++++id"%"0A++++"%"7D"%"2C"%"0A++++thumbnail_src"%"2C"%"0A++++video_views"%"0A++"%"7D"%"2C"%"0A++page_info"%"0A"%"7D"%"0A+"%"7D&ref=tags"%"3A"%"3Ashow" --compressed

したがって、フォームデータについては、次の2つのことを試しました。

body = response.xpath("//body")
html = str(body.extract())
end_cursor = re.search(r"\"end\_cursor\"\: \"(.+?)\"", html).group(1)

data = "q=ig_hashtag({})+%7B+media.after({}+10)+%7B%0A++count%2C%0A++nodes+%7B%0A++++caption%2C%0A++++code%2C%0A++++comments+%7B%0A++++++count%0A++++%7D%2C%0A++++comments_disabled%2C%0A++++date%2C%0A++++dimensions+%7B%0A++++++height%2C%0A++++++width%0A++++%7D%2C%0A++++display_src%2C%0A++++id%2C%0A++++is_video%2C%0A++++likes+%7B%0A++++++count%0A++++%7D%2C%0A++++owner+%7B%0A++++++id%0A++++%7D%2C%0A++++thumbnail_src%2C%0A++++video_views%0A++%7D%2C%0A++page_info%0A%7D%0A+%7D&ref=tags%3A%3Ashow".format(tag, end_cursor)
url = 'https://www.instagram.com/query/'

yield Request(url, body=data, method="POST", callback=self.parseHashtag)

この

data = {"q" :"ig_hashtag({})+%7B+media.after({}+10)+%7B%0A++count%2C%0A++nodes+%7B%0A++++caption%2C%0A++++code%2C%0A++++comments+%7B%0A++++++count%0A++++%7D%2C%0A++++comments_disabled%2C%0A++++date%2C%0A++++dimensions+%7B%0A++++++height%2C%0A++++++width%0A++++%7D%2C%0A++++display_src%2C%0A++++id%2C%0A++++is_video%2C%0A++++likes+%7B%0A++++++count%0A++++%7D%2C%0A++++owner+%7B%0A++++++id%0A++++%7D%2C%0A++++thumbnail_src%2C%0A++++video_views%0A++%7D%2C%0A++page_info%0A%7D%0A+%7D&ref=tags%3A%3Ashow".format(tag, end_cursor)}
yield FormRequest(url, formdata=data, callback=self.parseHashtag)

403エラーが発生するので、明らかにデータを誤って送信していますか、データを誤ってフォーマットしているのですか、それとも投稿を誤って呼び出していますか？これらは私の2つの考えですが、私にはよくわかりません。どんな助けでも大歓迎です、ありがとう。

URLはこれです-https：//www.instagram.com/explore/tags/love/

これは私のgitです、https：//github.com/Fuledbyramen/instagram_crawler/blob/master/instagram/spiders/instagram_spider.py

グラニトサウルス

正しいヘッダーまたはその問題に関するヘッダーが欠落しているようです。

ネットワークインスペクターに表示されるすべてのヘッダーを提供する必要があります。ただし、スクレイプで管理され、それ自体で入力されるCookieは除きます。

ネットワーク検査で得られるカール文字列からヘッダーを簡単に抽出できます。

foo = '''-H "accept-encoding: gzip, deflate, br" -H "accept-language: en-US,en;q=0.8" -H "user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36" -H "x-requested-with: XMLHttpRequest" -H "x-csrftoken: th33gPnvrsNS74reomY69ETfojX2avQ7" -H "x-instagram-ajax: 1" -H "content-type: application/x-www-form-urlencoded" -H "accept: */*" -H "referer: https://www.instagram.com/explore/tags/love/" -H "authority: www.instagram.com"'''
headers = [s.strip(' "').split(': ') for s in foo.split('-H')]
headers = [h for h in headers if any(h)]
headers = {k: v for k,v in headers}

そして、あなたは得るでしょう：

 {'accept': '*/*',
 'accept-encoding': 'gzip, deflate, br',
 'accept-language': 'en-US,en;q=0.8',
 'authority': 'www.instagram.com',
 'content-type': 'application/x-www-form-urlencoded',
 'referer': 'https://www.instagram.com/explore/tags/love/',
 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
 'x-csrftoken': 'th33gPnvrsNS74reomY69ETfojX2avQ7',
 'x-instagram-ajax': '1',
 'x-requested-with': 'XMLHttpRequest'}

リファラーは主に分析に使用されるため、これらの一部はまったく必要ありません。accept-language、accept、accept-encodingはほとんど無視できます。ユーザーエージェントもscrapyによって管理されています。

したがって、残っているのはx-crsftoken何もしないかもしれませんが、通常、それらはhtmlソースのどこかに隠されています。x-instagram-ajaxajaxリクエストを示す静的ヘッダーのようです。x-requested-withはリクエストタイプを示し、主に中間者攻撃を防ぐためにあります。ブロックされないようにリクエストタイプを示すためにそのままにしておく必要があります。

編集：私はウェブサイトを試しました、そしてあなたは実際にURLパラメータとしてbodyを使ってGETリクエストをすることができます。ネットワーク検査でリクエストを右クリックしてクリックするだけcopy location with parametersで、URLパラメータの本文からdictのようなデータが自動的に変換されます。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-22

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Scrapy投稿データ

Scrapy投稿データ

Scrapy データを URL に投稿する

Firebaseデータの投稿

WCFデータの投稿

投稿データの印刷

投稿データの送信nsurlsession

Swift webviewxcode投稿データ

Scrapyは最初の要素と投稿のタイトルからデータを収集します

メタデータによる投稿ID

Yandexタンクの投稿データ

Httpful投稿フォームデータ

Python JSON フォーム 投稿データ

Axiosを使用したデータの投稿

JsonPにデータを投稿する

VPN経由のPHP投稿データ

APIへのデータの投稿がnull

PHPを使用したcURL投稿データ

印刷物からのMikrotik投稿データ

投稿データをGet（）に渡す-Django

Axios / Ajax投稿データの問題

データと画像を投稿するFlaskAPI

jQueryでデータを投稿する

PHPでのVB.NET投稿データ

AJAXを介したデータの投稿

ajax投稿データを取得する方法

nsurlrequestを使用したCocoa投稿データ

データajaxをphpに投稿する

jqueryajax投稿データが未定義

ajaxデータをSpringControllerに投稿する

NodeJSで投稿データを取得する

Python JSON フォーム投稿データ