我有一个网站,我需要一种通过http请求从其他网站获取html数据的方法,并且我一直在寻找实现它的方法,并且大多数情况下是通过ajax调用来实现的。
一个ajax调用被链接阻止,所以我想尝试一个普通的跨域http请求,并希望它不会被一种或另一种方式阻止。
如果您正在运行服务器并且能够在其上运行代码,则可以在HTTP调用服务器端进行操作。请记住,尽管大多数站点每个IP地址只允许这么多的呼叫,所以您不能通过这种方式为很多用户提供服务。
这是一个简单的httpListener,当QueryString包含?site=http://linkedin.com
以下内容时,它会下载网站内容:
// setup an listener
using(var listener = new HttpListener())
{
// on port 8080
listener.Prefixes.Add("http://+:8080/");
listener.Start();
while(true)
{
// wait for a connect
var ctx = listener.GetContext();
var req = ctx.Request;
var resp = ctx.Response;
// default page
var cnt = "<html><body><a href=\"/?site=http://linkedin.com\">click me</a> </body></html>";
foreach(var key in req.QueryString.Keys)
{
if (key!=null)
{
// if the url contains ?site=some url to an site
switch(key.ToString())
{
case "site":
// lets download
var wc = new WebClient();
// store html in cnt
cnt = wc.DownloadString(req.QueryString[key.ToString()]);
// when needed you can do caching or processing here
// of the results, depending on your needs
break;
default:
break;
}
}
}
// output whatever is in cnt to the calling browser
using(var sw = new StreamWriter(resp.OutputStream))
{
sw.Write(cnt);
}
}
}
为了使上面的代码起作用,如果您在开发框中,则可能必须设置URL的权限:
netsh http add urlacl url=http://+:8080/ user=Everyone listen=yes
在生产中,为用户使用合理的值。
设置好之后,运行上面的代码并将您的浏览器指向
http://localhost:8080/
(注意/末尾)
您将获得一个包含链接的简单页面:
单击该链接将向httplistener发送一个新请求,但这一次带有查询字符串site=http://linkedin.com
。服务器端代码将从给定的URL中获取http内容,在本例中为LinkedIn.com。结果是一对一地发送回浏览器,但是您可以根据需要进行后处理/缓存等。
大多数网站不喜欢以这种方式被抓取,他们的服务条款实际上可能禁止这样做。确保您不会做任何会损害站点可靠性或导致对您采取法律行动的非法行为。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句