如何实现抓取某一网站上的数据并导入到数据库里?

时间:2022-11-17 12:15:57
比如下面网站上有信息
http://www.ceps.com.tw/ec/ecjnlarticleView.aspx?jnlcattype=1&jnlptype=3&jnltype=18&jnliid=1259&issueiid=101559&atliid=2156541

我要抓取这个上面的文章分别写入到
"中文
英文
关键词中文
关键词英文
篇名中文
篇名英文
作者中文
作者英文
期刊名"面里

5 个解决方案

#1


爬虫。

  private string GetHtmlCode(string url, Encoding encoding)
        {
            System.Net.HttpWebRequest request = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(url);
            request.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)";
            System.Net.WebResponse response = request.GetResponse();
            System.IO.Stream resStream = response.GetResponseStream();
            System.IO.StreamReader sr = new System.IO.StreamReader(resStream, encoding);
            string html = (sr.ReadToEnd());
            resStream.Close();
            sr.Close();
            return html;
        }
//之后等高手用正则来解决。。

#2


只需要得到该页面的html代码就OK了,然后从中截取到你想要的内容.
楼上的可以.
还有一种比较简单的 WebClient实例的DownLoadString就可以获得到html的内容.如果有乱码,设置Encoding属性.
复杂点的嘛.用Socket来做了.可以用HttpWatch查看一下浏览器向服务器发的什么数据.然后你也发,接收到的就是html代码.

然后截取你要的内容写入数据库.

#3


该回复于2011-03-14 09:16:07被版主删除

#4


引用 2 楼 codeedu 的回复:
只需要得到该页面的html代码就OK了,然后从中截取到你想要的内容.
楼上的可以.
还有一种比较简单的 WebClient实例的DownLoadString就可以获得到html的内容.如果有乱码,设置Encoding属性.
复杂点的嘛.用Socket来做了.可以用HttpWatch查看一下浏览器向服务器发的什么数据.然后你也发,接收到的就是html代码.

然后截取你要的内容写入数据库.……

能贴代码吗

#5


http://www.cnblogs.com/lucc/archive/2010/05/18/1738718.html

#1


爬虫。

  private string GetHtmlCode(string url, Encoding encoding)
        {
            System.Net.HttpWebRequest request = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(url);
            request.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)";
            System.Net.WebResponse response = request.GetResponse();
            System.IO.Stream resStream = response.GetResponseStream();
            System.IO.StreamReader sr = new System.IO.StreamReader(resStream, encoding);
            string html = (sr.ReadToEnd());
            resStream.Close();
            sr.Close();
            return html;
        }
//之后等高手用正则来解决。。

#2


只需要得到该页面的html代码就OK了,然后从中截取到你想要的内容.
楼上的可以.
还有一种比较简单的 WebClient实例的DownLoadString就可以获得到html的内容.如果有乱码,设置Encoding属性.
复杂点的嘛.用Socket来做了.可以用HttpWatch查看一下浏览器向服务器发的什么数据.然后你也发,接收到的就是html代码.

然后截取你要的内容写入数据库.

#3


该回复于2011-03-14 09:16:07被版主删除

#4


引用 2 楼 codeedu 的回复:
只需要得到该页面的html代码就OK了,然后从中截取到你想要的内容.
楼上的可以.
还有一种比较简单的 WebClient实例的DownLoadString就可以获得到html的内容.如果有乱码,设置Encoding属性.
复杂点的嘛.用Socket来做了.可以用HttpWatch查看一下浏览器向服务器发的什么数据.然后你也发,接收到的就是html代码.

然后截取你要的内容写入数据库.……

能贴代码吗

#5


http://www.cnblogs.com/lucc/archive/2010/05/18/1738718.html