前几天举例分析了用asp+xmlhttp获取网页源代码的方法,但c#中一般是可以利用WebClient类和WebRequest类获取网页源代码。下面分别说明这两种方法的实现。
WebClient类获取网页源代码
WebClient类
WebClient类位于System.Net命名空间下,WebClient类提供向URI标识的任何本地、Intranet或Internet资源发送数据以及从这些资源接收数据的公共方法。
源代码
///引用命名空间
using System.IO;
using System.Net;
using System.Text;
PageUrl = "http://www.webkaka.com"; //需要获取源代码的网页
WebClient wc = new WebClient(); // 创建WebClient实例提供向URI 标识的资源发送数据和从URI 标识的资源接收数据
wc.Credentials = CredentialCache.DefaultCredentials; // 获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。
///方法一:
Encoding enc = Encoding.GetEncoding("GB2312"); // 如果是乱码就改成 utf-8 / GB2312
Byte[] pageData = wc.DownloadData(PageUrl); // 从资源下载数据并返回字节数组。
ContentHtml.Text = enc.GetString(pageData); // 输出字符串(HTML代码),ContentHtml为Multiline模式的TextBox控件
/// 方法二:
/// ***************代码开始**********
/// Stream resStream = wc.OpenRead(PageUrl); //以流的形式打开URL
/// Encoding enc = Encoding.GetEncoding("GB2312"); // 如果是乱码就改成 utf-8 / GB2312
/// StreamReader sr = new StreamReader(resStream,enc); //以指定的编码方式读取数据流
/// ContentHtml.Text = sr.ReadToEnd(); //输出(HTML代码),ContentHtml为Multiline模式的TextBox控件
/// resStream.Close();
/// **************代码结束********
///
wc.Dispose();
WebRequest类获取网页源代码
WebRequest类
WebRequest类是.NET Framework中“请求/响应”模型的abstract基类,用于访问Internet数据。使用WebRequest类请求/响应模型的应用程序可以用协议不可知的方式从Internet请求数据,在这种方式下,应用程序处理WebRequest类的实例,而协议特定的子类则执行请求的具体细节,请求从应用程序发送到某个特定的URI,如服务器上的网页。URI从一个为应用程序注册的WebRequest子类列表中确定要创建的适当子类。注册WebRequest子类通常是为了处理某个特定的协议(如HTTP或FTP),但是也可以注册它以处理对特定服务器或服务器上的路径的请求。
WebRequest类中最常用的是Create方法,Create方法用于为指定的URI方案初始化新的WebRequest实例。
语法:
public static WebRequest Create
(
string requestUriString
)
参数:
requestUriString:标识Internet资源的URI。
返回值:特定URI方案的WebRequest子类。
注意:Create方法将运行时确定的WebRequest类的子类作为与requestUri最接近的注册匹配项返回。例如,当以http://开头的URI在requestUri中传递时,由Create返回一个HttpWebRequest。如果改为传递以file://开头的URI,则Create方法将返回FileWebRequest实例。.NET Framework包括对http://和file:// URI方案的支持。
WebResponse类
WebResponse类是abstract基类,协议特定的响应类从该抽象基类派生。应用程序可以使用 WebResponse类的实例以协议不可知的方式参与请求和响应事务,而从WebResponse类派生的协议特定的类携带请求的详细信息。
在WebResponse类中最常用的是GetResponse方法,GetResponse方法用于当在子类中被重写时,返回对 Internet 请求的响应
语法:
public virtual WebResponse GetResponse ()
返回值:包含对Internet请求的响应的WebResponse。
源代码
///引用命名空间
using System.IO;
using System.Net;
using System.Text;
PageUrl = "http://www.webkaka.com"; //需要获取源代码的网页
WebRequest request = WebRequest.Create(PageUrl); //WebRequest.Create方法,返回WebRequest的子类HttpWebRequest
WebResponse response = request.GetResponse(); //WebRequest.GetResponse方法,返回对 Internet 请求的响应
Stream resStream = response.GetResponseStream(); //WebResponse.GetResponseStream 方法,从 Internet 资源返回数据流。
Encoding enc = Encoding.GetEncoding("GB2312"); // 如果是乱码就改成 utf-8 / GB2312
StreamReader sr = new StreamReader(resStream, enc); //命名空间:System.IO。 StreamReader 类实现一个 TextReader (TextReader类,表示可读取连续字符系列的读取器),使其以一种特定的编码从字节流中读取字符。
ContentHtml.Text = sr.ReadToEnd(); //输出(HTML代码),ContentHtml为Multiline模式的TextBox控件
resStream.Close();
sr.Close();
----------------------------************************************----------------------------------------------------------------
总结:
WebRequest类和WebResponse类
WebClient类使用起来比较简单,但是它的功能非常有限,特别是不能使用它提供身份验证证书。这样,在上传数据时问题就出现了,许多站点都不会接受没有身份验证的上传文件。尽管可以给请求添加标题信息并检查响应中的标题信息,但这仅限于一般意义上的检查,对于任何一个协议,WebClient没有具体的支持。由于WebClient是通用的类,主要用于处理发送请求和接收响应的协议(例如HTTP、FTP等)。它不能处理任一协议的任何附加特性,例如专用于HTTP的cookie。如果想利用这些特性,就需要使用System.Net命名空间中以WebRequest类和WebResponse类为基类的一系列类。
首先讨论怎样使用这些类下载Web页——这个示例与前面的示例一样,但使用WebRequest类和WebResponse类。在此过程中,将解释涉及到的类的层次结构,然后阐述怎样利用这个层次所支持的其他HTTP特性。
下面的代码是在BasicWebClient示例的基础上修改而成的,目的是让它使用WebRequest类和WebResponse类。
public Form1()
{
InitializeComponent();
WebRequest wrq = WebRequest.Create("");
WebResponse wrs = wrq.GetResponse();
Stream strm = wrs.GetResponseStream();
StreamReader sr = new StreamReader(strm);
string line;
while ( (line = sr.ReadLine()) != null)
{
listBox1.Items.Add(line);
}
strm.Close();
}
在这段代码中,首先对代表Web请求的对象进行实例化。但在此并不是使用构造函数来实例化对象,而是调用静态的WebRequest.Create()方法,在下一小节中将解释这样做的原因。WebRequest类是支持不同网络协议的类层次结构的一部分,为了给请求类型接收一个对正确对象的引用,需要一个工厂(factory)机制。WebRequest.Create()方法会为给定的协议创建合适的 对象。
WebRequest类代表要给某个URI发送信息的请求,URI作为参数传送给Create()方法。WebResponse类代表从服务器获取的数据。调用WebRequest.GetResponse()方法,实际上是把请求发送给Web服务器,创建一个Response对象,检查返回的数据。与WebClient对象一样,可以得到一个代表数据的数据流,但是,这里的数据流是使用WebResponse.GetResponseStream()方法获得的。
下面将讨论WebRequest和WebResponse的其他特性。我们将会看到WebRequest和WebResponse和其他相关的类提供的良好支持。
1. HTTP标题信息
HTTP协议的一个重要方面就是能够利用请求和响应数据流发送扩展的标题信息。标题信息可以包括cookies、以及发送请求的特定浏览器(用户代理)的一些详细信息。.NET Framework为访问最重要的数据提供了支持。WebRequest类和WebResponse类提供了读取标题信息的一些支持。而两个派生的类HttpWebRequest类和HttpWebResponse类提供了其他HTTP特定的信息。如后面所述,用HTTP URI创建WebRequest会生成一个HttpWebRequest对象实例。因为HttpWebRequest派生自WebRequest,可以在需要WebRequest的任何地方使用新实例。另外,还可以把实例的类型强制转换为HttpWebRequest引用,访问HTTP协议特定的属性。同样,在使用HTTP时,GetResponse()方法调用会把HttpWebResponse实例返回为HttpWebResponse引用,也可以进行一个简单的强制转换,以访问HTTP特定的特性。
可以在GetResponse()方法调用之前添加如下代码,检查两个标题属性:
WebRequest wrq = WebRequest.Create("");
HttpWebRequest hwrq = (HttpWebRequest)wrq;
listBox1.Items.Add("Request Timeout (ms) = " + wrq.Timeout);
listBox1.Items.Add("Request Keep Alive = " + hwrq.KeepAlive);
listBox1.Items.Add("Request AllowAutoRedirect = " + hwrq.AllowAutoRedirect);
Timeout属性的单位是毫秒,其默认值是100 000。可以设置这个属性,以控制WebRequest对象在产生WebException之前要在响应中等待多长时间。可以检查属性WebException.Status,看看产生异常的原因。这个枚举类型包括超时的状态码、连接失败、协议错误等。
KeepAlive属性是对HTTP协议的特定扩展,所以可以通过HttpWebRequest引用访问这个属性。该属性允许多个请求使用同一个连接,在后续的请求中节省关闭和重新打开连接的时间。其默认值为true。
AllowAutoRedirect属性也是专用于HttpWebRequest类的,使用这个属性可以控制Web请求是否应自动跟随Web服务器上的重定向响应。其默认值也是true。如果只允许有限的重定向,可以把HttpWebRequest的MaximumAutomaticRedirections属性设置为想要的数值。
请求和响应类把大多数重要的标题显示为属性,也可以使用Headers属性本身显示标题的总集合。在GetResponse()方法调用的后面添加如下代码,把所有的标题都放在列表框中:
WebRequest wrq = WebRequest.Create("");
WebResponse wrs = wrq.GetResponse();
WebHeaderCollection whc = wrs.Headers;
for(int i = 0; i < whc.Count; i++)
{
listBox1.Items.Add("Header " + whc.GetKey(i) + " : " + whc[i]);
}
这个示例代码会产生如图31-2所示的标题列表。
图 31-2
2. 身份验证
WebRequest类中的另一个属性是Credentials。如果需要把身份验证证书附带在请求中,就可以用用户名和密码创建NetworkCredential类(也在System.Net命名空间中)的一个实例。在调用GetResponse()之前,添加下述代码:
NetworkCredential myCred = new NetworkCredential("myusername", "mypassword");
wrq.Credentials = myCred;
3. 异步页面请求
WebRequest类的另一个特性就是可以异步请求页面。由于在给主机发送请求到接收响应之间有很长的延迟,因此,异步请求页面就显得比较重要。像WebClient.DownloadData()和WebRequest.GetResponse()等方法,在响应没有从服务器回来之前,是不会返回的。如果不希望在那段时间中应用程序处于等待状态,可以使用BeginGetResponse() 方法和 EndGetResponse()方法,BeginGetResponse()方法可以异步工作,并立即返回。在底层,运行库会异步管理一个后台线程,从服务器上接收响应。BeginGetResponse() 方法不返回WebResponse对象,而是返回一个执行IAsyncResult接口的对象。使用这个接口可以选择或等待可用的响应,然后调用EndGetResponse()搜集结果。
也可以把一个回调委托发送给BeginGetResponse()方法。该回调委托的目的地是一个返回类型为void并把IAsyncResult引用作为参数的方法,当工作线程完成了搜集响应的任务后,运行库就调用该回调委托,通知用户工作已完成。如下面的代码所示,在回调方法中调用EndGetResponse()可以接收WebResponse对象:
public Form1()
{
InitializeComponent();
WebRequest wrq = WebRequest.Create("");
wrq.BeginGetResponse(new AsyncCallback(OnResponse), wrq);
}
protected void OnResponse(IAsyncResult ar)
{
WebRequest wrq = (WebRequest)ar.AsyncState;
WebResponse wrs = wrq.EndGetResponse(ar);
// read the response ...
}
注意可以把对象传送为BeginGetResponse()的第二个参数,检索最初的WebRequest对象。第三个参数是一个对象引用,称为状态参数,在回调方法中,可以使用IAsyncResult的AsyncState属性检索相同的状态对象。