웹 페이지에서 모든 HTTP URL 가져 오기

debugcn 에 게시 Dev

학습자

웹 페이지에서 모든 HTTP URL을 검색하는 간단한 유틸리티를 만들고 있습니다.

처음에는 HTML 구문 분석 라이브러리를 사용하여 HREF 태그를 구문 분석 할 계획 이었지만 스크립트 내에 포함 된 URL도 검색해야한다는 것을 알게되었습니다 (아래 예제 스크립트). 따라서 모든 HTTP를 얻기 위해 정규식을 시도하기 시작했습니다. 웹 페이지의 URL이지만 어떤 이유로 내 정규식이 제대로 작동하지 않습니다.

URL은 자바 스크립트 내부에있을 수 있습니다.

<script> 
    if(jQuery.browser.msie) 
    { 
        var v= 'http://test.com/test/test'; 
    } 
</script>

내 프로그램 :

try {

            BufferedReader in=new BufferedReader(new FileReader("c:\\sample\\sample.html"));
            while ((inputLine = in.readLine()) != null) {
                System.out.println(inputLine);
                String pattern = "http?://([-\\w\\.]+)+(:\\d+)?(/([\\w/_\\.]*(\\?\\S+)?)?)?";

                // Create a Pattern object
                Pattern r = Pattern.compile(pattern);
                // Now create matcher object.
                Matcher m = r.matcher(inputLine.replaceAll("http://", "\nhttp://"));
                while (!m.hitEnd()) {
                    if (m.find()) {
                        System.out.println("Found value: " + m.group(0));
                    } else {
                        //System.out.println("NO MATCH");
                    }
                }
            }
            in.close();
        } catch (Exception e) {
            e.printStackTrace();
        }

누군가가이 문제를 해결하도록 도와 주거나 웹 페이지에서 모든 URL을 검색하는 가장 좋은 방법을 알려줄 수 있습니까?

로 미 마이

기술

표현에 오타가 있습니다. s선택 사항 이어야합니다 .

https?://([-\\w\\.]+)+(:\\d+)?(/([\\w/_\\.]*(\\?\\S+)?)?)?
    ^

또한 다음을 권장합니다.

(... )캡처 그룹을 (?:... 와 같은 비 캡처 그룹으로 대체)
.캐릭터 그룹 내부 에서 탈출 할 필요가 없습니다.[.]
URL을 둘러싼 가까운 따옴표를 캡처하지 않도록 테스트를 추가하세요.
/folder/subfolder초기 슬래시와 폴더 이름을 찾는 반복적 인 비 캡처 그룹으로 섹션을 찾는 섹션을 다시 작성하십시오.

정규식 : https?:\/\/(?:[\w-]+.)+(?::\d+)?(?:\/[\w\/_.]*)*?(?:\?\S+)?(?=['"\s])

Java 문자열로 : "https?:\\/\\/(?:[\\w-]+.)+(?::\\d+)?(?:\\/[\\w\\/_.]*)*?(?:\\?\\S+)?(?=['\"\\s])"

여기에 이미지 설명 입력

예

라이브 데모

샘플 텍스트

<script> 
    if(jQuery.browser.msie) 
    { 
        var v= 'http://test.com/test/test'; 
    } 
</script> 
<a class="test" href="http://blablablablabla.com">Third Link</a>

성냥

[0] => http://test.com/test/test
[1] => http://blablablablabla.com

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-05-29

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

웹 페이지에서 모든 HTTP URL 가져 오기

웹 페이지에서 모든 HTTP URL 가져 오기

기술

예

외부 URL / 웹 사이트에서 모든 이미지 가져 오기

동일한 도메인에 속한 웹 페이지에서 모든 URL을 가져 오는 방법

Python을 사용하여 웹 사이트에서 모든 URL 가져 오기

웹 페이지 -Excel VBA에서 링크 / URL 가져 오기

Python 및 셀레늄-웹 페이지에서 모든 링크 가져 오기

웹 페이지에서 모든 링크를 가져 오지 못함

승인 후 URL에서 웹 페이지 텍스트 가져 오기

reactjs가 만든 웹 페이지의 span 태그에서 값 가져 오기

일부 웹 페이지에서 Ajax 호출 내에서 요청 된 페이지 <url> 가져 오기

페이지 캐시에서 모든 페이지 가져 오기

방문 페이지에서 HTTP_REFERER 가져 오기-방문 페이지 URL을 다시 가져옴

C #에서 웹 페이지 페이지 콘텐츠 및 HTTP 상태 코드 가져 오기

Typescript의 http URL에서 ES6 모듈 가져 오기

웹 페이지에서 이미지 URL을 가져 오는 방법

테이블의 모든 항목에 대한 웹 링크 가져 오기 및 페이지 매김

PHP URL에서 모든 가격 ID 가져 오기

페이지에서 모든 텍스트 요소 가져 오기

웹 페이지에서 모든 텍스트를 가져 오는 방법은 무엇입니까?

입력에서 기본 웹 사이트 URL 가져 오기

JETTY Services에서 호스팅하는 모든 URL 가져 오기

해당 div에서 모든 URL 가져 오기

모든 URL에서 도메인 만 가져 오기

instragram URL에서 모든 Instagram 노드 가져 오기

Android에서 웹 페이지 크기 (바이트) 가져 오기

페이지 및 다음 페이지에서 URL 가져 오기

웹 페이지에서 테이블 가져 오기

PHP의 웹 페이지에서 데이터 가져 오기

웹 페이지에서 이상한 문자 가져 오기

JavaScript가 활성화 된 경우 R을 사용하여 웹 페이지에서 모든 검색 결과 가져 오기