我正在jsoup
通过以下功能来读取网页。
public Document getDocuement(String url){
Document doc = null;
try {
doc = Jsoup.connect(url).timeout(20*1000).userAgent("Mozilla").get();
} catch (Exception e) {
return null;
}
return doc;
}
但是,每当我尝试阅读包含javascript
生成内容的网页时,jsoup
都不会阅读这些内容。也就是说,页面的实际内容是通过某些javascript
调用加载的。因此,该链接的页面源中不存在该内容。例如,此博客:http : //blog.rapporter.net/search/label/r。解析网页时,是否有办法获取javascript生成的内容Jsoup
?如果否,请提出任何可以解决此问题的java html解析器。
您不能使用Jsoup做到这一点。Jsoup解析HTML,通常要等待AJAX请求或JavaScript内容,您需要一个可以执行此JavaScript的浏览器才能从中获取一些输出。JavaScript逻辑可能很复杂,因此执行JavaScript和加载内容并不是一件容易的事(只需看看浏览器,JS和DOM有多复杂)。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句