如何从PHP生成的HTML页面获取正文内容？

Squids4Life 发表于 Dev

鱿鱼

我正在尝试使用以下代码来获取HTML页面的内容：

String malSearch = "http://myanimelist.net/anime.php?letter=" + firstLetter;
URL url = new URL(malSearch);
URLConnection con = url.openConnection();
InputStream in = con.getInputStream();
String encoding = con.getContentEncoding();
encoding = encoding == null ? "UTF-8" : encoding;
ByteArrayOutputStream baos = new ByteArrayOutputStream();
byte[] buf = new byte[8192];
int len = 0;
while ((len = in.read(buf)) != -1) {
    baos.write(buf, 0, len);
}
String body = new String(baos.toByteArray(), encoding);

它可以正常工作，但不能满足我的实际需求。它给了我这个：

<html>
 <head>
  <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
  <meta name="format-detection" content="telephone=no">
  <meta name="viewport" content="initial-scale=1.0">
  <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
 </head>
 <body style="margin:0px">
  <iframe src="/_Incapsula_Resource?CWUDNSAI=9&xinfo=6-122029399-0 0NNN RT(1404149034204 2) q(0 -1 -1 -1) r(0 -1) B12(4,315,0) U1&incident_id=124001330081285077-564449081699338326&edet=12&cinfo=4ee46646c753833e04000000" frameborder=0 width="100%" height="100%" marginheight="0px" marginwidth="0px">Request unsuccessful. Incapsula incident ID: 124001330081285077-564449081699338326</iframe>
 </body>
</html>

应该给我整页（大约800行）。

我认为这是由于这是一个使用PHP的网站，但我不确定。有人可以告诉我如何获取整个HTML内容吗？

这是我要从中获取内容的页面：http : //myanimelist.net/anime.php?letter=A

ZigZag_IL

该站点使用称为Incapsula的服务。网站管理员配置了Incapsula，以防止漫游器访问其内容。

我建议您联系管理员并要求将其列入白名单，尝试绕过系统可能会使您被禁止进入黑名单。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。