PythonWebスクレイピングが奇妙な文字を返す

debugcn 投稿 Dev

HenryRocha

Pythonを使用してWebサイトからテキストを取得し、そのテキストを使用して.txtファイルを作成しようとしています。私はBeautifulSoup4とRequestsを使用してサイトから情報を取得しています。テキストをプルしてファイルを作成することはできますが、問題はありませんが、生成されたテキストをVSCodeで開くと、次のようになります。

�It�s the year 3486 of the Saint Origin calendar. I was dead for over a hundred years. Jiang Chen, my name is�Jiang Chen. Why have I been reborn after a hundred years?�

これをウェブサイトと比較すると、は特定の句読点であると考えられていることがわかります。次に、以下を使用してみました。

text = text.replace(u"\u201c", '"')

二重引用符の一部を置き換えると、問題の一部しか解決されないため、多くの句読点が残り、同じ方法を使用してすべての句読点を見つけようとするのは現実的ではありません。

これを修正する方法はありますか？おそらく、使用したい文字の種類を強制しますか？

必要に応じて私のソースコードは次のとおりです。

# MODULES NEEDED:
from bs4 import BeautifulSoup
import requests

# Link from which we want the text:
link =  "http://liberspark.com/read/dragon-marked-war-god/chapter-1"

# Getting the page's source code:
source = requests.get(link)

# Creating the BeautifulSoup object:
source = BeautifulSoup(source.content.decode("utf-8"), "html.parser")

# Finding the the div which holds the text:
container = source.find("div", class_="reader-content")

# Variable that will hold all the text:
text =  ""

# Going through all the <p> tags in the container:
for p in container.find_all("p"):
    text +=  str(p.text) +  "\n\n"

text = text.replace(u"\u2019", "'")

with  open("test.txt", "w") as  file:
    file.write(text)

cieunteung

フォーマットでtest.txt書かれていないのでutf-8、wbフラグを使ってバイナリモードでファイルを書き、.encode('utf-8')

with open("test.txt", "wb") as  file:
    file.write(text.encode('utf-8'))

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-9

コメントを追加

サインイン

分類Dev

PythonWebスクレイピング結果から特定の文字列を削除する

分類Dev

PythonWebスクレイピングがデータをプルしない

分類Dev

PythonWebスクレイピングが失敗する

分類Dev

__RequestAccessTokenが機能しないPythonWebスクレイピングログイン

分類Dev

テーブルを行ごとにスクレイピングしますか？PythonWebスクレイピング

分類Dev

PythonWebスクレイピングのヘルプが必要

分類Dev

PythonWebスクレイピングを使用して<span>値を取得します

分類Dev

リクエストを使用してPOSTフォームデータをスクレイピングするPythonWebが機能しない

分類Dev

複数のページをスクレイピングするPythonWeb

分類Dev

find vs select_oneは、PythonWebスクレイピングで異なる結果をもたらします

分類Dev

BSを使用したPythonWebスクレイピング

分類Dev

奇妙な文字を返すPHPシンプルHTMLDOMパーサー-スクレイピングから保護されていますか？

分類Dev

Pythonでlxmlを使用してWebスクレイピングした後、トルコ語の文字ではなく奇妙な文字が表示されます

分類Dev

'soup.findall'を使用してすべてのタグをスクレイピングするPythonWebサイト

分類Dev

PythonWebスクレイピングtdクラススパン

分類Dev

PythonWebスクレイピングログイン

分類Dev

美しいスープを使用したPythonWebスクレイピング-ページからすべての製品の詳細を返す

分類Dev

バックエンドのjsonデータファイルを使用するPythonWebスクレイピング

分類Dev

[href]を使用しない多層WebサイトでのPythonWebスクレイピング

分類Dev

PythonWebスクレイピングタブペイン

分類Dev

PythonWebスクレイピング-n個のアイテムのみを検索

分類Dev

PythonWebスクレイピング出力をファイルに書き込む

分類Dev

PythonWebスクレイピング中にjsイベントをトリガーする

分類Dev

PythonWebスクレイピングデータをコンマで区切る

分類Dev

bs4を使用したPythonWebスクレイピングがクラスで機能しないpg-bodyCopyhas-apos

分類Dev

PythonWebスクレイピングソリューション

分類Dev

フィルタを使用してテーブルをスクレイピングするPythonWeb

分類Dev

PythonWebスクレイピングの問題

分類Dev

ESPN.com PythonWebスクレイピングの問題

Related 関連記事

記事