如何从PHP生成的HTML页面获取正文内容?

鱿鱼

我正在尝试使用以下代码来获取HTML页面的内容:

String malSearch = "http://myanimelist.net/anime.php?letter=" + firstLetter;
URL url = new URL(malSearch);
URLConnection con = url.openConnection();
InputStream in = con.getInputStream();
String encoding = con.getContentEncoding();
encoding = encoding == null ? "UTF-8" : encoding;
ByteArrayOutputStream baos = new ByteArrayOutputStream();
byte[] buf = new byte[8192];
int len = 0;
while ((len = in.read(buf)) != -1) {
    baos.write(buf, 0, len);
}
String body = new String(baos.toByteArray(), encoding);

它可以正常工作,但不能满足我的实际需求。它给了我这个:

<html>
 <head>
  <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
  <meta name="format-detection" content="telephone=no">
  <meta name="viewport" content="initial-scale=1.0">
  <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
 </head>
 <body style="margin:0px">
  <iframe src="/_Incapsula_Resource?CWUDNSAI=9&xinfo=6-122029399-0 0NNN RT(1404149034204 2) q(0 -1 -1 -1) r(0 -1) B12(4,315,0) U1&incident_id=124001330081285077-564449081699338326&edet=12&cinfo=4ee46646c753833e04000000" frameborder=0 width="100%" height="100%" marginheight="0px" marginwidth="0px">Request unsuccessful. Incapsula incident ID: 124001330081285077-564449081699338326</iframe>
 </body>
</html>

应该给我整页(大约800行)。

我认为这是由于这是一个使用PHP的网站,但我不确定。有人可以告诉我如何获取整个HTML内容吗?

这是我要从中获取内容的页面:http : //myanimelist.net/anime.php?letter=A

ZigZag_IL

该站点使用称为Incapsula的服务。网站管理员配置了Incapsula,以防止漫游器访问其内容。

我建议您联系管理员并要求将其列入白名单,尝试绕过系统可能会使您被禁止进入黑名单。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用sed打印html页面的正文内容

来自分类Dev

HTML Agility Pack如何在页面加载后获取动态生成的内容

来自分类Dev

如何获取php生成的xml内容

来自分类Dev

在Chrome中获取iframe正文html内容

来自分类Dev

在Java中获取HTML文件的正文内容

来自分类Dev

在Chrome中获取iframe正文html内容

来自分类Dev

如何通过AJAX调用的成功回调替换页面的整个HTML或正文内容?

来自分类Dev

如何调用Delphi过程以生成HTML页面内容

来自分类Dev

如何从正文中获取<img src =>的内容

来自分类Dev

从页面获取非HTML内容

来自分类Dev

从远程HTML页面获取内容

来自分类Dev

单击html页面中的按钮时,如何在当前页面顶部获取页面(正文中附带的图片)

来自分类Dev

如何使用Mink和PhantomJS获取HTML页面内容?

来自分类Dev

PHP Curl获取页面内容

来自分类Dev

如何从Selenium中动态生成的页面获取HTML元素?

来自分类Dev

如何从另一个HTML页面获取HTML页面的内容?

来自分类Dev

如何使确认页面显示HTML / PHP中表单的内容?

来自分类Dev

如何获取Javascript生成的内容

来自分类Dev

PHP IMAP:如何获取正确的正文?

来自分类Dev

如何在php生成的内容上动态插入HTML

来自分类Dev

AngularJS,页面上有多个生成的表单。如何获取表格内容

来自分类Dev

PHP IMAP 如何只获取正文的文本部分?不是不同的 <html> 标签等

来自分类Dev

添加文件之后但发送之前如何获取RestRequest正文内容

来自分类Dev

如何在Laravel中获取HTTP请求正文内容?

来自分类Dev

微软访问 | 如何从邮件正文获取内容到表格?

来自分类Dev

如何从html <textarea>获取和发送值到PHP页面?

来自分类Dev

从外部页面PHP获取元素的内容

来自分类Dev

PHP / html获取李的内容

来自分类Dev

获取生成的 HTML 容器内容长度

Related 相关文章

  1. 1

    如何使用sed打印html页面的正文内容

  2. 2

    HTML Agility Pack如何在页面加载后获取动态生成的内容

  3. 3

    如何获取php生成的xml内容

  4. 4

    在Chrome中获取iframe正文html内容

  5. 5

    在Java中获取HTML文件的正文内容

  6. 6

    在Chrome中获取iframe正文html内容

  7. 7

    如何通过AJAX调用的成功回调替换页面的整个HTML或正文内容?

  8. 8

    如何调用Delphi过程以生成HTML页面内容

  9. 9

    如何从正文中获取<img src =>的内容

  10. 10

    从页面获取非HTML内容

  11. 11

    从远程HTML页面获取内容

  12. 12

    单击html页面中的按钮时,如何在当前页面顶部获取页面(正文中附带的图片)

  13. 13

    如何使用Mink和PhantomJS获取HTML页面内容?

  14. 14

    PHP Curl获取页面内容

  15. 15

    如何从Selenium中动态生成的页面获取HTML元素?

  16. 16

    如何从另一个HTML页面获取HTML页面的内容?

  17. 17

    如何使确认页面显示HTML / PHP中表单的内容?

  18. 18

    如何获取Javascript生成的内容

  19. 19

    PHP IMAP:如何获取正确的正文?

  20. 20

    如何在php生成的内容上动态插入HTML

  21. 21

    AngularJS,页面上有多个生成的表单。如何获取表格内容

  22. 22

    PHP IMAP 如何只获取正文的文本部分?不是不同的 <html> 标签等

  23. 23

    添加文件之后但发送之前如何获取RestRequest正文内容

  24. 24

    如何在Laravel中获取HTTP请求正文内容?

  25. 25

    微软访问 | 如何从邮件正文获取内容到表格?

  26. 26

    如何从html <textarea>获取和发送值到PHP页面?

  27. 27

    从外部页面PHP获取元素的内容

  28. 28

    PHP / html获取李的内容

  29. 29

    获取生成的 HTML 容器内容长度

热门标签

归档