Pythonを使用してPDFをダウンロードする

arcee123

インターネットからPDFをダウンロードしようとしています。インターネットからPDFを取得するために必要な一連のリンクがあります。
私はこのコードブロックを持っています:

from selenium.webdriver import Firefox
from selenium.webdriver.firefox.options import Options
url = 'http://webapps.rrc.texas.gov/CMPL/viewPdfReportFormAction.do?method=cmplG1FormPdf&packetSummaryId=2928'
opts = Options()
opts.headless = True
assert opts.headless  # Operating in headless mode
browser_detail = Firefox(options=opts)
browser_detail.get(url)
print(browser_detail.page_source)


with open('temp/metadata.pdf', 'wb') as fd:
    fd.write(browser_detail.page_source)

browser_detail.close()

私もリクエストを試しました。同じ応答:

import requests

url = 'http://webapps.rrc.texas.gov/CMPL/viewPdfReportFormAction.do?method=cmplG1FormPdf&packetSummaryId=2928'
r = requests.get(url, stream=True)

with open('temp/metadata.pdf', 'wb') as fd:
    for chunk in r.iter_content(2000):
        fd.write(chunk)

問題は、URLをブラウザに入力すると、PDFが表示されることですが、このコードに入力すると、page_sourceはhtmlになります。これにより、転送またはサーバー側の処理が関係していると思います。

PDFを取得するにはどうすればよいですか?ありがとう!

カルロス

を使用してPDFファイルをプルダウンすることができましたrequests

このページは適切なUser-Agentものを探しているので、ChromeMacOSに設定しました。

h = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8","User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36" }

r = requests.get(url, stream=True, headers=h)

そしてそれはうまくいった。

tmp/project/1> file metadata.pdf
metadata.pdf: PDF document, version 1.4

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Javaを使用してPDFをダウンロードする

分類Dev

Selenium、Chrome、Pythonを使用してPDFをダウンロードする

分類Dev

jquery ajaxを使用してPDFファイルをダウンロードする

分類Dev

jsを使用してPDFを自動的にダウンロードする方法は?

分類Dev

Rseleniumを使用して複数のPDFをダウンロードする

分類Dev

PythonでSeleniumを使用してPDFファイルをダウンロードする方法

分類Dev

すでにダウンロードされている場合はPDFを開き、ダウンロードされていない場合は、ダウンロードマネージャーを使用してPDFをダウンロードします

分類Dev

Google Drive androidSDKを使用してドキュメントをPDFとしてダウンロードする

分類Dev

pdf.jsを使用してidmによるPDF自動ダウンロードを防止する

分類Dev

pdf.jsを使用してPDFをダウンロードできないようにする方法

分類Dev

JavaScriptを使用してHTMLページのdivをPDFとしてダウンロードする

分類Dev

puppeterを使用してAngularでPDFにダウンロードすると、空のpdfが保存されます

分類Dev

Rotativaを使用してダウンロードする代わりにPDFをプレビューする

分類Dev

Mozilapdf.js投稿を使用してPDFをダウンロード

分類Dev

PythonSeleniumドライバーを使用してPDFファイルをダウンロードする

分類Dev

リモートメソッドを使用してPDFをダウンロードする

分類Dev

Pythonリクエストを使用してCSVをダウンロードする

分類Dev

PythonでSeleniumWebdriverを使用して画像をダウンロードする

分類Dev

certutilとPythonを使用してファイルをダウンロードする

分類Dev

ttdownloaderからPythonを使用してビデオをダウンロードする

分類Dev

Pythonを使用して大量のファイルをダウンロードする

分類Dev

Pythonを使用してWebサイトをダウンロードする

分類Dev

Selenium / Pythonを使用して埋め込みPDFをダウンロードしますか?

分類Dev

Selenium / Pythonを使用して埋め込みPDFをダウンロードしますか?

分類Dev

python3.7を使用してリスト内のURLからPDFをダウンロードします

分類Dev

Node.jsを使用してPDFのダウンロードを促す

分類Dev

DownloadManagerを使用してHTTP / HTTPSURIをダウンロードする

分類Dev

R:rvestを使用して画像をダウンロードする

分類Dev

Angularjsを使用してcsv形式をダウンロードする

Related 関連記事

  1. 1

    Javaを使用してPDFをダウンロードする

  2. 2

    Selenium、Chrome、Pythonを使用してPDFをダウンロードする

  3. 3

    jquery ajaxを使用してPDFファイルをダウンロードする

  4. 4

    jsを使用してPDFを自動的にダウンロードする方法は?

  5. 5

    Rseleniumを使用して複数のPDFをダウンロードする

  6. 6

    PythonでSeleniumを使用してPDFファイルをダウンロードする方法

  7. 7

    すでにダウンロードされている場合はPDFを開き、ダウンロードされていない場合は、ダウンロードマネージャーを使用してPDFをダウンロードします

  8. 8

    Google Drive androidSDKを使用してドキュメントをPDFとしてダウンロードする

  9. 9

    pdf.jsを使用してidmによるPDF自動ダウンロードを防止する

  10. 10

    pdf.jsを使用してPDFをダウンロードできないようにする方法

  11. 11

    JavaScriptを使用してHTMLページのdivをPDFとしてダウンロードする

  12. 12

    puppeterを使用してAngularでPDFにダウンロードすると、空のpdfが保存されます

  13. 13

    Rotativaを使用してダウンロードする代わりにPDFをプレビューする

  14. 14

    Mozilapdf.js投稿を使用してPDFをダウンロード

  15. 15

    PythonSeleniumドライバーを使用してPDFファイルをダウンロードする

  16. 16

    リモートメソッドを使用してPDFをダウンロードする

  17. 17

    Pythonリクエストを使用してCSVをダウンロードする

  18. 18

    PythonでSeleniumWebdriverを使用して画像をダウンロードする

  19. 19

    certutilとPythonを使用してファイルをダウンロードする

  20. 20

    ttdownloaderからPythonを使用してビデオをダウンロードする

  21. 21

    Pythonを使用して大量のファイルをダウンロードする

  22. 22

    Pythonを使用してWebサイトをダウンロードする

  23. 23

    Selenium / Pythonを使用して埋め込みPDFをダウンロードしますか?

  24. 24

    Selenium / Pythonを使用して埋め込みPDFをダウンロードしますか?

  25. 25

    python3.7を使用してリスト内のURLからPDFをダウンロードします

  26. 26

    Node.jsを使用してPDFのダウンロードを促す

  27. 27

    DownloadManagerを使用してHTTP / HTTPSURIをダウンロードする

  28. 28

    R:rvestを使用して画像をダウンロードする

  29. 29

    Angularjsを使用してcsv形式をダウンロードする

ホットタグ

アーカイブ