외부 파일에서 불필요한 정크 문자 제거

debugcn 에 게시 Dev

Shantanuo

이 코드는 내 블로그에서 마라 티어 텍스트를 올바르게 추출합니다. 아름다운 수프와 정규 표현을 사용하는 것이 얼마나 쉬운 지 감사합니다.

from bs4 import BeautifulSoup
import requests, re

url = "http://shabdasampada.blogspot.com/2020/01/blog-post_29.html"

headers = requests.utils.default_headers()
req = requests.get(url, headers)
soup = BeautifulSoup(req.content, 'html.parser')
text = soup.get_text()

p = re.compile(r'[^\u0900-\u097F\n]')
for line in text.splitlines():
    cleaned = p.sub(' ', line)
    if cleaned.strip():
        print(cleaned)

그러나 마지막 몇 줄에서 정크 문자를 볼 수 있습니다. 이렇게 ...

"사랑해"

해당 줄을 어떻게 제거합니까?

최신 정보:

내 코드는 다음을 반환합니다.

Nabar Key Number Typewriting Assistance 2020 년 1 월 29 일 Nabar Key Number Google은 머신 러닝을 사용하여 검색 결과를 표시하기 시작했습니다. 지금은 얼마 안되었지만 불과 몇 달 밖에되지 않았을 수 있습니다. Mangesh Nabar라는 사람에 대한 정보를 검색하면 첫 페이지에 Mangesh와 Number라는 두 단어가있는 페이지가 나타납니다. 대부분의 경우 Google에서는 Nabar라는 단어를 Number로 변경했을 수 있습니다. 댓글 게시 이전 게시물 홈
블로그 구독 manogataca 맞춤법 검사기 basalaya that Mark는 nabara 번호 spardhaparikseca real risk l
Ar
l h b gakara 라는 단어 에서 용암 용암의 전체 프로필보기 l c m h b
L의 gakara
에 단어 AR
IMA g의 IMA g에서의 가능한 아르곤
부 C 및 E는
막 대형의 모르는
바에서 또는 바
T W 단 L C C
L A A C 형 L 바도 davara
XII C는 W 시스템 대상인 세금
이 아닌 바 바 C 용융에
비 매시 아닌 치장 벽토와 선생님 라라 t 전자의 R jhala 현재 엘 khava 도로에
사실에서 C 리터 리터뿐만 아니라 양
시간 나는 리터 것하지 Nach하지만 주요
대상
                                                                                                                                                                                      ल       ड ह       त आह

내 질문은 다음 부분이 페이지 어디에도 보이지 않는다는 것입니다. 그 기원을 알고 싶습니다.

C of lava l c of lava of lava
make possible Ar on h b
l gakara h b
l gakara
the word ar on
the possible Ar on ima g ima g
sub C and E
do not know a Bar
or Bar in a Bar
T W Dan l c C
L 출판도 davara 폼 C 리터
XII C는 수 W 시스템의 대상이되는
비 바리 C 용융물을 보내지
R f를 각하없이 jhala t 도로와 매쉬 치장에 라라없이 khava 엘 세금
다음 사실 다음 f r not
h i l에서 Nach가 아니라 핵심
목표
                                                                                                                                                                                      ल       ड ह       त आह

업데이트 2 :

나는 자바 스크립트를 제거하는 것을 잊었다!

for script in soup(["script", "style"]):
    script.decompose()
text = soup.get_text()

Andy_101

당신이 얻는 데이터는 블로그에서 온 것이므로 원하는 것을 정확히 지정하지 않았기 때문에 모든 것을 얻고 있습니다.

당신이 원한다고 가정

그런 다음 정확히이 부분 만 아름다운 수프에 지정해야합니다.

귀하의 코드는 해당 페이지에서 모든 것을 읽고 있습니다.

산출:

                           नाबर की नंबर 
स्वभाषेत टंकलेखन साहाय्य
२९ जानेवारी  २०२०
नाबर की नंबर 
गुगलने मशीन लर्निंगचा वापर करून सर्च रिझल्ट दाखवायला सुरुवात केली  त्याला आता फार नाही पण एक दोनच महिने झाले असतील 
काही बाबतीत रिझल्टमध्ये सुधारणा झाली असली तरी इतर बऱ्याच बाबतीत आणि विशेषतः देवनागरी सर्चची क्वालिटी घसरलेली दिसते   आज मी  मंगेश नाबर  या व्यक्तीची माहिती गुगलून पाहिली तर  मंगेश  आणि  नंबर   हे दोन शब्द असलेली पाने पहिल्या पानावर दिसत आहेत  बहुतेक गुगलने  नाबर  या शब्दाला बदलून  नंबर  केले असावे 
द्वारा पोस्ट केलेले
येथे
१० ०४ म पू 
लेबल 
हे राम 
कोणत्याही टिप्पण् या नाहीत 
टिप्पणी पोस्ट करा
नवीनतम पोस्ट
थोडे जुने पोस्ट
मुख्यपृष्ठ
याची सदस्यता घ्या 
टिप्पणी पोस्ट करा       
ब्लॉग संग्रहण
मनोगताचा स्पेल चेकर
बसलय की बसलंय 
नाबर की नंबर 
स्पर्धापरीक्षेचा खरा धोका
माझ्याबद्दल
माझे पूर्ण प्रोफाइल पहा 
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    ल              क म       ळव                                          ल              क म       ळव                                                                                           वर श       अर कर                                           ह       ब       ल       गकर                                               ह       ब       ल       गकर                                                                                             वर श       अर कर                                                                                                     वर श       अर कर                                            ईम       ल                                    ईम       ल                                                                                                                                                                                                                                                                                     अध       क व       च                                                                            न       बर क        न       बर                                              न       बर क        न       बर                                                                                                                                           स       प       दन                             ल              क क       ल       पब       र       डवर क       प        क       ल                  ठ       क आह                       ल              क प       स       ट कर                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     न       बर क        न       बर                     ग       गलन        मश       न लर       न              गच        व       पर कर       न सर       च र       झल       ट द       खव       यल        स       र       व       त क       ल         त       य       ल        आत        फ       र न       ह        पण एक द       नच मह       न        झ       ल        असत       ल                                                                                                                                                                                                                                                                                                                           
                                                                                                                                                                                          ल       ड ह       त आह

하지만 함께:

from bs4 import BeautifulSoup
import requests, re

url = "http://shabdasampada.blogspot.com/2020/01/blog-post_29.html"

headers = requests.utils.default_headers()
req = requests.get(url, headers)
soup = BeautifulSoup(req.content, 'html.parser')

h=soup.find_all('div', attrs={'class':"post hentry uncustomized-post-template"})[0]

text = h.get_text()

p = re.compile(r'[^\u0900-\u097F\n]')
for line in text.splitlines():
    cleaned = p.sub(' ', line)
    if cleaned.strip():
        print(cleaned)

출력은 다음과 같습니다.

नाबर की नंबर 
गुगलने मशीन लर्निंगचा वापर करून सर्च रिझल्ट दाखवायला सुरुवात केली  त्याला आता फार नाही पण एक दोनच महिने झाले असतील 
काही बाबतीत रिझल्टमध्ये सुधारणा झाली असली तरी इतर बऱ्याच बाबतीत आणि विशेषतः देवनागरी सर्चची क्वालिटी घसरलेली दिसते   आज मी  मंगेश नाबर  या व्यक्तीची माहिती गुगलून पाहिली तर  मंगेश  आणि  नंबर   हे दोन शब्द असलेली पाने पहिल्या पानावर दिसत आहेत  बहुतेक गुगलने  नाबर  या शब्दाला बदलून  नंबर  केले असावे 
द्वारा पोस्ट केलेले
येथे
१० ०४ म पू 
लेबल 
हे राम

필요한 데이터가있는 div를 지정했음을 알 수 있습니다.

h=soup.find_all('div', attrs={'class':"post hentry uncustomized-post-template"})[0]

이를 확인하려면 웹 페이지의 html을 확인하여 원하는 데이터가 정확히 어디에 있는지 알아야합니다. 이를 위해 크롬에서 Ctrl + Shift + i를 사용할 수 있습니다.

자세한 내용은 이 게시물을 살펴 보시기 바랍니다.

마지막 질문

귀하가보고있는 정크 데이터는 귀하의 웹 사이트에서만 제공됩니다.

BeautifulSoup은 페이지 소스에서 데이터를 가져옵니다. 원하는 데이터가 무엇인지 알려주는 조건을 언급하지 않았으므로 정크 데이터의 출처를 이해하려면 웹 사이트의 페이지 소스를 살펴보세요.

페이지 소스를 보면 html 코드 끝에서이 쓰레기를 찾을 수 있습니다.

이것은 출력에서 볼 수있는 모든 정크의 소스입니다.

이렇게 변경하는 경우 : ' cleaned'print ' line'대신

p = re.compile(r'[^\u0900-\u097F\n]')
for line in text.splitlines():
    cleaned = p.sub(' ', line)
    if cleaned.strip():
        print(line)

이런 식으로 많은 정크 데이터를 보게 될 것입니다. .. 정크 데이터는 실제로 페이지의 소스 코드와 특정 문자 집합에 대해서만 필터링했기 때문에 해당 코드에 존재합니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

외부 파일에서 불필요한 정크 문자 제거

외부 파일에서 불필요한 정크 문자 제거

스크립트에서 불필요한 파일 잠금 제거

이름에서 불필요한 파일 확장자 제거

문자열 끝에서 불필요한 문자를 제거하는 좋은 정규식은 무엇입니까?

bash 스크립트에서 일부를 제외한 파일 제거

VBA 또는 PostgreSQL : 수학 방정식 문자열에서 불필요한 괄호 제거

이 파일에서 불필요한 부분을 어떻게 제거합니까?

자바 스크립트 : 외부 CSS 파일에서 미디어 쿼리 제거

파일 권한-특정 사용자에게 부여하는 예외 문제

자바에서 객체를 문자열로 변환하고 불필요한 문자 제외

파일 확장자 (.png)를 제외한 모든 파일에서 _ 뒤에 나오는 문자 제거

<div> 요소의 부정적인 위치가 쌓여 포스트 끝에 불필요한 수직 공간 제거

테이블 문제 : dt (크기가 다른) 사이에 불필요한 공백 제거

아르메니아어, ASCII 및 러시아어 문자를 제외한 모든 문자와 JavaScript 정규식으로 일부 특수 문자 제거

Lex 정규식에서 일부 문자 제외

지정된 필드를 제외한 문자열 제거

문자열에서 특정 문자의 마지막을 제외한 모든 문자를 제거하려고하지만 관련없는 일부 문자를 삭제합니다.

폴더의 C ++ 구현 파일에서 불필요한 빈 줄을 제거하는 스크립트

정규식, PHP에서 하나를 제외한 모든 문자 제거

Linux에서 특정 파일 패턴을 제외한 모든 파일 제거

괄호를 제외한 문자열에서 영숫자가 아닌 문자를 제거하는 Python 정규식

React-요소 외부를 클릭하는 사용자 지정 후크에 어떤 문제가 있습니까?

"void main"전에 불필요한 문자를 찾을 때 내 정규식의 문제점

Powershell에서 파일 외부 문제

파일 이름을 가져 오거나 일치에서 특정 문자를 제외하는 정규식

PHP 동적 정수에서 문자열의 일부 제거

파일의 문자열에서 특정 문자열 제거

불필요한 공간을 제거하기 위해 Linux에서 특정 크기의 모든 대용량 파일 찾기

Tableview에서 불필요한 줄 제거

Python에서 특정 문자 뒤의 문자열 부분 제거