http://www.ceps.com.tw/ec/ecjnlarticleView.aspx?jnlcattype=1&jnlptype=3&jnltype=18&jnliid=1259&issueiid=101559&atliid=2156541
我要抓取这个上面的文章分别写入到
"中文
英文
关键词中文
关键词英文
篇名中文
篇名英文
作者中文
作者英文
期刊名"面里
5 个解决方案
#1
爬虫。
private string GetHtmlCode(string url, Encoding encoding)
{
System.Net.HttpWebRequest request = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(url);
request.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)";
System.Net.WebResponse response = request.GetResponse();
System.IO.Stream resStream = response.GetResponseStream();
System.IO.StreamReader sr = new System.IO.StreamReader(resStream, encoding);
string html = (sr.ReadToEnd());
resStream.Close();
sr.Close();
return html;
}
//之后等高手用正则来解决。。
#2
只需要得到该页面的html代码就OK了,然后从中截取到你想要的内容.
楼上的可以.
还有一种比较简单的 WebClient实例的DownLoadString就可以获得到html的内容.如果有乱码,设置Encoding属性.
复杂点的嘛.用Socket来做了.可以用HttpWatch查看一下浏览器向服务器发的什么数据.然后你也发,接收到的就是html代码.
然后截取你要的内容写入数据库.
楼上的可以.
还有一种比较简单的 WebClient实例的DownLoadString就可以获得到html的内容.如果有乱码,设置Encoding属性.
复杂点的嘛.用Socket来做了.可以用HttpWatch查看一下浏览器向服务器发的什么数据.然后你也发,接收到的就是html代码.
然后截取你要的内容写入数据库.
#3
#4
能贴代码吗
#5
http://www.cnblogs.com/lucc/archive/2010/05/18/1738718.html
#1
爬虫。
private string GetHtmlCode(string url, Encoding encoding)
{
System.Net.HttpWebRequest request = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(url);
request.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)";
System.Net.WebResponse response = request.GetResponse();
System.IO.Stream resStream = response.GetResponseStream();
System.IO.StreamReader sr = new System.IO.StreamReader(resStream, encoding);
string html = (sr.ReadToEnd());
resStream.Close();
sr.Close();
return html;
}
//之后等高手用正则来解决。。
#2
只需要得到该页面的html代码就OK了,然后从中截取到你想要的内容.
楼上的可以.
还有一种比较简单的 WebClient实例的DownLoadString就可以获得到html的内容.如果有乱码,设置Encoding属性.
复杂点的嘛.用Socket来做了.可以用HttpWatch查看一下浏览器向服务器发的什么数据.然后你也发,接收到的就是html代码.
然后截取你要的内容写入数据库.
楼上的可以.
还有一种比较简单的 WebClient实例的DownLoadString就可以获得到html的内容.如果有乱码,设置Encoding属性.
复杂点的嘛.用Socket来做了.可以用HttpWatch查看一下浏览器向服务器发的什么数据.然后你也发,接收到的就是html代码.
然后截取你要的内容写入数据库.
#3
#4
能贴代码吗
#5
http://www.cnblogs.com/lucc/archive/2010/05/18/1738718.html