这是原始的html网址:http ://www.tapuz.co.il/forums2008/forumpage.aspx?forumid = 393&pagenumber =1
这就是我下载html的方式:
private void GetHtml()
{
for (int i = 1; i < 2; i++)
{
webclient.DownloadFile(sourceUrl + i, combinedHtmlsDir + "\\Page" + i + ".html");
}
}
我在保存的html文件上得到的内容是:这是内容的顶行:
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="X-UA-Compatible" content="IE=edge" />
<meta name="description" content="פורום מזג האוויר - תפוז פורומים, קהילות בכל נושא שבעולם. בואו לדבר על מזג האוויר במערכת הפורומים הטובה ביותר ברשת." />
<meta name="keywords" content="פורום, פורומים, קהילות, מאמרים, מידע, דיון, תגובות ,תפוז, תפוז אנשים,מזג האוויר" />
这是页面view-source的顶行:
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="X-UA-Compatible" content="IE=edge" />
<meta name="description" content="מתעניינים במזג האוויר? רוצים לקבל מידע אונליין על המתרחש? היכנסו לפורום מזג אוויר בתפוז!" />
<meta name="keywords" content="פורום, פורומים, קהילות, מאמרים, מידע, דיון, תגובות ,תפוז, תפוז אנשים,מזג האוויר, מזג אויר, חיזוי, אקלים, אטמוספירה, גשמים, חום, קור, משקעים, גשם, רוחות, רוח, עננות, עננים, ענן, צירוס, קומולוס, צירוסים, קומולוסים, קרה, ברד, קר, חם, מזג אוויר, לחות, nzd vtuuhr, דני רופ, מטאורולוג" />
内容不一样。如何下载视图源的相同内容?我从中下载的链接可能与查看源的链接不同吗?
我现在还测试了是否要浏览网站到页面,然后用鼠标右键单击,然后另存为并将其另存为:网页,HTML只有这样,我的硬盘上的html文件才是311KB尺寸。
但是使用我的程序,硬盘上的html文件大小仅为77KB。
我不知道为什么它不能像在执行另存为一样在程序中为我保存相同内容和大小的html文件。
如果页面是动态的(内容将会更改),我怀疑您的问题是内容在视图源和下载之间发生了变化。
如果不是这种情况,请检查浏览器/ js是否更改了您在视图源中看到的DOM树,或者该网站是否可能根据用户代理更改了其内容。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句