Pythonを使用してPDFをダウンロードする

debugcn 投稿 Dev

arcee123

インターネットからPDFをダウンロードしようとしています。インターネットからPDFを取得するために必要な一連のリンクがあります。
私はこのコードブロックを持っています：

from selenium.webdriver import Firefox
from selenium.webdriver.firefox.options import Options
url = 'http://webapps.rrc.texas.gov/CMPL/viewPdfReportFormAction.do?method=cmplG1FormPdf&packetSummaryId=2928'
opts = Options()
opts.headless = True
assert opts.headless  # Operating in headless mode
browser_detail = Firefox(options=opts)
browser_detail.get(url)
print(browser_detail.page_source)


with open('temp/metadata.pdf', 'wb') as fd:
    fd.write(browser_detail.page_source)

browser_detail.close()

私もリクエストを試しました。同じ応答：

import requests

url = 'http://webapps.rrc.texas.gov/CMPL/viewPdfReportFormAction.do?method=cmplG1FormPdf&packetSummaryId=2928'
r = requests.get(url, stream=True)

with open('temp/metadata.pdf', 'wb') as fd:
    for chunk in r.iter_content(2000):
        fd.write(chunk)

問題は、URLをブラウザに入力すると、PDFが表示されることですが、このコードに入力すると、page_sourceはhtmlになります。これにより、転送またはサーバー側の処理が関係していると思います。

PDFを取得するにはどうすればよいですか？ありがとう！

カルロス

を使用してPDFファイルをプルダウンすることができましたrequests。

このページは適切なUser-Agentものを探しているので、ChromeMacOSに設定しました。

h = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8","User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36" }

r = requests.get(url, stream=True, headers=h)

そしてそれはうまくいった。

tmp/project/1> file metadata.pdf
metadata.pdf: PDF document, version 1.4

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-14

コメントを追加

サインイン

分類Dev

Javaを使用してPDFをダウンロードする

分類Dev

Selenium、Chrome、Pythonを使用してPDFをダウンロードする

分類Dev

jquery ajaxを使用してPDFファイルをダウンロードする

分類Dev

jsを使用してPDFを自動的にダウンロードする方法は？

分類Dev

Rseleniumを使用して複数のPDFをダウンロードする

分類Dev

PythonでSeleniumを使用してPDFファイルをダウンロードする方法

分類Dev

すでにダウンロードされている場合はPDFを開き、ダウンロードされていない場合は、ダウンロードマネージャーを使用してPDFをダウンロードします

分類Dev

Google Drive androidSDKを使用してドキュメントをPDFとしてダウンロードする

分類Dev

pdf.jsを使用してidmによるPDF自動ダウンロードを防止する

分類Dev

pdf.jsを使用してPDFをダウンロードできないようにする方法

分類Dev

JavaScriptを使用してHTMLページのdivをPDFとしてダウンロードする

分類Dev

puppeterを使用してAngularでPDFにダウンロードすると、空のpdfが保存されます

分類Dev

Rotativaを使用してダウンロードする代わりにPDFをプレビューする

分類Dev

Mozilapdf.js投稿を使用してPDFをダウンロード

分類Dev

PythonSeleniumドライバーを使用してPDFファイルをダウンロードする

分類Dev

リモートメソッドを使用してPDFをダウンロードする

分類Dev

Pythonリクエストを使用してCSVをダウンロードする

分類Dev

PythonでSeleniumWebdriverを使用して画像をダウンロードする

分類Dev

certutilとPythonを使用してファイルをダウンロードする

分類Dev

ttdownloaderからPythonを使用してビデオをダウンロードする

分類Dev

Pythonを使用して大量のファイルをダウンロードする

分類Dev

Pythonを使用してWebサイトをダウンロードする

分類Dev

Selenium / Pythonを使用して埋め込みPDFをダウンロードしますか？

分類Dev

Selenium / Pythonを使用して埋め込みPDFをダウンロードしますか？

分類Dev

python3.7を使用してリスト内のURLからPDFをダウンロードします

分類Dev

Node.jsを使用してPDFのダウンロードを促す

分類Dev

DownloadManagerを使用してHTTP / HTTPSURIをダウンロードする

分類Dev

R：rvestを使用して画像をダウンロードする

分類Dev

Angularjsを使用してcsv形式をダウンロードする

Related 関連記事

記事