이 코드는 내 블로그에서 마라 티어 텍스트를 올바르게 추출합니다. 아름다운 수프와 정규 표현을 사용하는 것이 얼마나 쉬운 지 감사합니다.
from bs4 import BeautifulSoup
import requests, re
url = "http://shabdasampada.blogspot.com/2020/01/blog-post_29.html"
headers = requests.utils.default_headers()
req = requests.get(url, headers)
soup = BeautifulSoup(req.content, 'html.parser')
text = soup.get_text()
p = re.compile(r'[^\u0900-\u097F\n]')
for line in text.splitlines():
cleaned = p.sub(' ', line)
if cleaned.strip():
print(cleaned)
그러나 마지막 몇 줄에서 정크 문자를 볼 수 있습니다. 이렇게 ...
"사랑해"
해당 줄을 어떻게 제거합니까?
최신 정보:
내 코드는 다음을 반환합니다.
Nabar Key Number Typewriting Assistance 2020 년 1 월 29 일 Nabar Key Number Google은 머신 러닝을 사용하여 검색 결과를 표시하기 시작했습니다. 지금은 얼마 안되었지만 불과 몇 달 밖에되지 않았을 수 있습니다. Mangesh Nabar라는 사람에 대한 정보를 검색하면 첫 페이지에 Mangesh와 Number라는 두 단어가있는 페이지가 나타납니다. 대부분의 경우 Google에서는 Nabar라는 단어를 Number로 변경했을 수 있습니다. 댓글 게시 이전 게시물 홈
블로그 구독 manogataca 맞춤법 검사기 basalaya that Mark는 nabara 번호 spardhaparikseca real risk l
Ar
l h b gakara 라는 단어 에서 용암 용암의 전체 프로필보기 l c m h b
L의 gakara
에 단어 AR
IMA g의 IMA g에서의 가능한 아르곤
부 C 및 E는
막 대형의 모르는
바에서 또는 바
T W 단 L C C
L A A C 형 L 바도 davara
XII C는 W 시스템 대상인 세금
이 아닌 바 바 C 용융에
비 매시 아닌 치장 벽토와 선생님 라라 t 전자의 R jhala 현재 엘 khava 도로에
사실에서 C 리터 리터뿐만 아니라 양
시간 나는 리터 것하지 Nach하지만 주요
대상ल ड ह त आह
내 질문은 다음 부분이 페이지 어디에도 보이지 않는다는 것입니다. 그 기원을 알고 싶습니다.
C of lava l c of lava of lava
make possible Ar on h b
l gakara h b
l gakara
the word ar on
the possible Ar on ima g ima g
sub C and E
do not know a Bar
or Bar in a Bar
T W Dan l c C
L 출판도 davara 폼 C 리터
XII C는 수 W 시스템의 대상이되는
비 바리 C 용융물을 보내지
R f를 각하없이 jhala t 도로와 매쉬 치장에 라라없이 khava 엘 세금
다음 사실 다음 f r not
h i l에서 Nach가 아니라 핵심
목표ल ड ह त आह
업데이트 2 :
나는 자바 스크립트를 제거하는 것을 잊었다!
for script in soup(["script", "style"]):
script.decompose()
text = soup.get_text()
당신이 얻는 데이터는 블로그에서 온 것이므로 원하는 것을 정확히 지정하지 않았기 때문에 모든 것을 얻고 있습니다.
당신이 원한다고 가정
그런 다음 정확히이 부분 만 아름다운 수프에 지정해야합니다.
귀하의 코드는 해당 페이지에서 모든 것을 읽고 있습니다.
산출:
नाबर की नंबर
स्वभाषेत टंकलेखन साहाय्य
२९ जानेवारी २०२०
नाबर की नंबर
गुगलने मशीन लर्निंगचा वापर करून सर्च रिझल्ट दाखवायला सुरुवात केली त्याला आता फार नाही पण एक दोनच महिने झाले असतील
काही बाबतीत रिझल्टमध्ये सुधारणा झाली असली तरी इतर बऱ्याच बाबतीत आणि विशेषतः देवनागरी सर्चची क्वालिटी घसरलेली दिसते आज मी मंगेश नाबर या व्यक्तीची माहिती गुगलून पाहिली तर मंगेश आणि नंबर हे दोन शब्द असलेली पाने पहिल्या पानावर दिसत आहेत बहुतेक गुगलने नाबर या शब्दाला बदलून नंबर केले असावे
द्वारा पोस्ट केलेले
येथे
१० ०४ म पू
लेबल
हे राम
कोणत्याही टिप्पण् या नाहीत
टिप्पणी पोस्ट करा
नवीनतम पोस्ट
थोडे जुने पोस्ट
मुख्यपृष्ठ
याची सदस्यता घ्या
टिप्पणी पोस्ट करा
ब्लॉग संग्रहण
मनोगताचा स्पेल चेकर
बसलय की बसलंय
नाबर की नंबर
स्पर्धापरीक्षेचा खरा धोका
माझ्याबद्दल
माझे पूर्ण प्रोफाइल पहा
ल क म ळव ल क म ळव वर श अर कर ह ब ल गकर ह ब ल गकर वर श अर कर वर श अर कर ईम ल ईम ल अध क व च न बर क न बर न बर क न बर स प दन ल क क ल पब र डवर क प क ल ठ क आह ल क प स ट कर न बर क न बर ग गलन मश न लर न गच व पर कर न सर च र झल ट द खव यल स र व त क ल त य ल आत फ र न ह पण एक द नच मह न झ ल असत ल
ल ड ह त आह
하지만 함께:
from bs4 import BeautifulSoup
import requests, re
url = "http://shabdasampada.blogspot.com/2020/01/blog-post_29.html"
headers = requests.utils.default_headers()
req = requests.get(url, headers)
soup = BeautifulSoup(req.content, 'html.parser')
h=soup.find_all('div', attrs={'class':"post hentry uncustomized-post-template"})[0]
text = h.get_text()
p = re.compile(r'[^\u0900-\u097F\n]')
for line in text.splitlines():
cleaned = p.sub(' ', line)
if cleaned.strip():
print(cleaned)
출력은 다음과 같습니다.
नाबर की नंबर
गुगलने मशीन लर्निंगचा वापर करून सर्च रिझल्ट दाखवायला सुरुवात केली त्याला आता फार नाही पण एक दोनच महिने झाले असतील
काही बाबतीत रिझल्टमध्ये सुधारणा झाली असली तरी इतर बऱ्याच बाबतीत आणि विशेषतः देवनागरी सर्चची क्वालिटी घसरलेली दिसते आज मी मंगेश नाबर या व्यक्तीची माहिती गुगलून पाहिली तर मंगेश आणि नंबर हे दोन शब्द असलेली पाने पहिल्या पानावर दिसत आहेत बहुतेक गुगलने नाबर या शब्दाला बदलून नंबर केले असावे
द्वारा पोस्ट केलेले
येथे
१० ०४ म पू
लेबल
हे राम
필요한 데이터가있는 div를 지정했음을 알 수 있습니다.
h=soup.find_all('div', attrs={'class':"post hentry uncustomized-post-template"})[0]
이를 확인하려면 웹 페이지의 html을 확인하여 원하는 데이터가 정확히 어디에 있는지 알아야합니다. 이를 위해 크롬에서 Ctrl + Shift + i를 사용할 수 있습니다.
자세한 내용은 이 게시물을 살펴 보시기 바랍니다.
마지막 질문
귀하가보고있는 정크 데이터는 귀하의 웹 사이트에서만 제공됩니다.
BeautifulSoup은 페이지 소스에서 데이터를 가져옵니다. 원하는 데이터가 무엇인지 알려주는 조건을 언급하지 않았으므로 정크 데이터의 출처를 이해하려면 웹 사이트의 페이지 소스를 살펴보세요.
페이지 소스를 보면 html 코드 끝에서이 쓰레기를 찾을 수 있습니다.
이것은 출력에서 볼 수있는 모든 정크의 소스입니다.
이렇게 변경하는 경우 : ' cleaned
'print ' line
'대신
p = re.compile(r'[^\u0900-\u097F\n]')
for line in text.splitlines():
cleaned = p.sub(' ', line)
if cleaned.strip():
print(line)
이런 식으로 많은 정크 데이터를 보게 될 것입니다. .. 정크 데이터는 실제로 페이지의 소스 코드와 특정 문자 집합에 대해서만 필터링했기 때문에 해당 코드에 존재합니다.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다