我目前正在开发一种需要从网页中获取数据的工具。(类似于刮,但不完全相同)。我需要的是一种为页面加载的所有请求获取响应正文的方法。我找到了一个解决方案(confess.js),它使用 phantomjs 来获取主要(发起者)请求的主体。列出主请求和子请求的 URL、标题和 cookie,甚至正文大小。但我似乎找不到一种方法来获取子请求的正文数据(JS、CSS、图像等资源和任何 xhr 请求)。实现这一目标的最佳方法是什么?(我不想单独点击每个网址,从而使我网页上的点击次数增加一倍)任何帮助将不胜感激。谢谢。
有一个简单的答案:https : //mitmproxy.org/
在本地安装它并配置您的浏览器以使用此代理。比您可以跟踪所有流量。(并且将轻松支持 https)
如果您需要以编程方式访问这些数据,您最好查看一些 nodejs 代理库。(http://anyproxy.io , https://github.com/nodejitsu/node-http-proxy)
您需要一个“反向代理”,您可以在其中传递所有请求。然后您可以控制来自页面的所有传出请求的请求/响应。您可以“捕获”网址、正文等。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句