Java 클래스 HttpsURLConnection을 사용하여 웹 페이지에 연결하고 JSoup을 사용하여 HTML 응답을 구문 분석하는 Android 앱에서 작업 중입니다. 문제는 웹 사이트의 HTML 응답이 인코딩 된 것처럼 보인다는 것입니다. 실제 HTML을 얻기 위해 무엇을 할 수 있는지에 대한 아이디어가 있습니까?
다음은 웹 사이트에 연락하기위한 코드입니다.
private String GetPageContent(String url) throws Exception {
URL obj = new URL(url);
conn = (HttpsURLConnection) obj.openConnection();
// default is GET
conn.setRequestMethod("GET");
conn.setUseCaches(false);
// act like a browser
conn.setRequestProperty("User-Agent", USER_AGENT);
conn.setRequestProperty("Accept",
"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
conn.setRequestProperty("Accept-Language", "en-US,en;q=0.8,en-GB;q=0.6");
conn.setRequestProperty("Accept-Encoding" , "gzip, deflate, sdch");
conn.setRequestProperty("Connection" , "keep-alive");
if (cookies != null) {
for (String cookie : this.cookies) {
conn.addRequestProperty("Cookie", cookie.split(";", 1)[0]);
}
}
int responseCode = conn.getResponseCode();
Log.v(TAG,"\nSending 'GET' request to URL : " + url);
Log.v(TAG,"Response Code : " + responseCode);
BufferedReader in = new BufferedReader(new InputStreamReader(
conn.getInputStream()));
String inputLine;
StringBuffer response = new StringBuffer();
while ((inputLine = in.readLine()) != null) {
response.append(inputLine);
}
in.close();
// Get the response cookies
setCookies(conn.getHeaderFields().get("Set-Cookie"));
return response.toString();
}
그리고 응답의 일부 :
��������������]�r�6��۞�w@ՙ�NDQ�ﱥ|�siv�Kkw�m&�HH�M, Z��ff_c_o�d�@���9�l�6����� �_=w|����/A{��!W� LZ��������f]�=wc߽�2,˨�|�8x��~�}�x1�$Ib�Uq�7�j�X|;��K
수정 : HTML은 여기 요청 헤더에 표시된대로 GZIP으로 인코딩 되었습니다 .
이 문제에 대한 해결책은 아래와 같이 GZIPInputStream 클래스 를 사용하는 것입니다 .
BufferedReader in = new BufferedReader(new InputStreamReader(
new GZIPInputStream(conn.getInputStream())));
요청과 함께 반환 된 헤더를 기반으로 콘텐츠가 gzip을 사용하여 인코딩된다는 결론을 내릴 수 있습니다. 다행히 GZIPInputStream 클래스를 사용하여 gzip 인코딩 스트림을 디코딩하는 쉬운 방법이 있습니다.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다