웹 페이지에서 이메일을 가져 오는 Python 웹 자동화

debugcn 에 게시 Dev

Ganeshgm7

링크를 열고 해당 페이지의 이메일 주소를 인쇄하는 파이썬 스크립트를 원합니다.

예

example.com과 같은 사이트로 이동
거기에서 이메일을 검색하십시오.
해당 링크의 모든 페이지에서 검색합니다.

나는 아래 코드를 시도했다

import requests
from bs4 import BeautifulSoup

r = requests.get('http://www.digitalseo.in/')
data = r.text
soup = BeautifulSoup(data)

for rate in soup.find_all('@'):
    print rate.text

이 웹 사이트를 참고 용으로 사용합니다.

누구든지 이것을 얻을 수 있도록 도와주세요?

카시미르 크리스탈

태그find_all() 만 검색 하기 때문 입니다 . 문서에서 :

서명: find_all(name, attrs, recursive, string, limit, **kwargs)

이 find_all()메서드는 태그의 하위 항목을 살펴보고 필터와 일치하는 모든 하위 항목을 검색합니다.

따라서 다음과 같은 키워드 인수를 추가해야합니다.

import re
import requests
from bs4 import BeautifulSoup

r = requests.get('http://www.digitalseo.in/')
data = r.text
soup = BeautifulSoup(data, "html.parser")

for i in soup.find_all(href=re.compile("mailto")):
    print i.string

데모:

[email protected]
[email protected]

문서에서 :

인식되지 않는 인수는 태그 속성 중 하나에 대한 필터로 바뀝니다. id라는 인수 값을 전달하면 뷰티플 수프가 각 태그의 'id'속성에 대해 필터링합니다.

soup.find_all(id='link2')
# [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

에 대한 값을 전달하면 href뷰티플 수프가 각 태그의 'href'속성에 대해 필터링합니다.

soup.find_all(href=re.compile("elsie"))
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

자세한 내용은 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all 문서를 참조하세요.

문서에서 이메일 주소를 찾으려면 regex좋은 선택입니다.

예를 들면 :

import re
re.findall( '[^@]+@[^@]+\.[^@]+ ', text) # remember change `text` variable

키워드로 페이지에서 링크를 찾으려면 다음과 같이 사용 .get하십시오.

import re
import requests
from bs4 import BeautifulSoup

def get_link_by_keyword(keyword):
    links = set()
    for i in soup.find_all(href=re.compile(r"[http|/].*"+str(keyword))):
        links.add(i.get('href'))

    for i in links:
        if i[0] == 'h':
            yield i
        elif i[0] == '/':
            yield link+i
        else:
            pass

global link
link = raw_input('Please enter a link: ')
if link[-1] == '/':
    link = link[:-1]

r = requests.get(link, verify=True)
data = r.text
soup = BeautifulSoup(data, "html.parser")

for i in get_link_by_keyword(raw_input('Enter a keyword: ')):
    print i

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-5

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

웹 페이지에서 이메일을 가져 오는 Python 웹 자동화

웹 페이지에서 이메일을 가져 오는 Python 웹 자동화

동일한 도메인에 속한 웹 페이지에서 모든 URL을 가져 오는 방법

웹 페이지에서 이상한 문자 가져 오기

Python : 요청을 사용하여 웹 페이지에서 자동 제안 결과 가져 오기

Android의 웹 페이지에서 문자열 가져 오기

ReactJS 가져 오기가 빈 웹 페이지에서 작동하지 않음

웹 페이지에서 요소를 가져 오는 방법

Python 및 셀레늄-웹 페이지에서 모든 링크 가져 오기

웹 페이지 소스에서 문자열을 여기에서 가져 오는 방법은 무엇입니까?

웹 페이지 소스에서 문자열을 여기에서 가져 오는 방법은 무엇입니까?

웹 페이지에서 내일 날짜 가져 오기

웹 페이지에서 이미지 URL을 가져 오는 방법

웹 페이지에서 테이블 가져 오기

Android에서 웹 페이지 크기 (바이트) 가져 오기

PHP의 웹 페이지에서 데이터 가져 오기

웹 페이지에서 상자를 선택하는 Python POST

웹 페이지에서 모든 HTTP URL 가져 오기

웹 페이지에서 링크 가져 오기

웹 페이지에서 링크 가져 오기

웹 페이지 -Excel VBA에서 링크 / URL 가져 오기

Matlab에서 웹 페이지 html 및 css 코드 가져 오기

[JAVA] 웹 페이지에서 html 링크 가져 오기

Selenium-자주 새로 고침 웹 페이지에서 요소를 올바르게 가져 오는 방법

HTML 웹 페이지에서 특정 데이터를 가져 오는 방법

HTML 페이지를 가져 오는 동안 MSAccess에서 웹 사이트의 처음 두 행을 가져오고 제거하는 방법

python-요청을 사용하여 수백 개의 웹 페이지에서 콘텐츠 가져 오기

기본 인증으로 자체 웹 페이지에서 카메라 스트림 가져 오기

해당 웹 페이지의 일부 사전 초기화 데이터가있는 웹보기에서 웹 페이지로드

동적 웹 페이지를 정적 웹 페이지로 변환 할 수 있도록 외부 CSS 파일을 가져 오는 빠른 방법이 있습니까?

동적 웹 페이지를 정적 웹 페이지로 변환 할 수 있도록 외부 CSS 파일을 가져 오는 빠른 방법이 있습니까?