关于网络爬虫

时间:2021-10-05 16:57:37
需要从一些网站取得一些数据,要求是这些网站之间互相有链接,具体来讲就是:
一个博客文章中,有引用自别的网站或者本网站的文章,会有一条指向该网站另一篇文章的链接,该篇文章还有指向别的文章的链接(或者没有链接),想把这些链接都取出来
问题:
1.如何取出链接,如何分析该链接是否属于某一个网站(只取部分网站)
2.起始点如何选择
如果有代码最好,感谢!
急用,谢谢!

17 个解决方案

#1


光感谢啊?先给你顶上面。

#2


呵呵,可以送积分么,我刚才想多加点积分的,无奈只能是100,希望大家帮忙!

#3


简单啊。
搜索<a href=....></a>标签啊。

#4


顶下~

#5


帮顶

#6


冒泡帮顶接分

if (strURL.StartsWith("http://") == false)
                strURL = "http://" + strURL;
----------------------------------------

Uri newUri = new Uri(strRef);
                            
                            if (newUri.Host.ToLower()。。。。。) 。。。。


#7


帮顶..........

#8


搜索标签就OK了

#9


关注一下

#10


看我的这个:
www.webscraping.com.cn

#11


如何使用C#2.0实现抓取网络资源的网络蜘蛛。使用这个程序,可以通过一个入口网址来扫描整个互联网的网址,并将这些扫描到的网址所指向的网络资源下载到本地。然后可以利用其他的分析工具对这些网络资源做进一步地分析,如提取关键词、分类索引等。也可以将这些网络资源作为数据源来实现象Google一样的搜索引擎。
http://www.aoner.com/asp/11.html

#12


我有核心(socket写的),但我不公开
嘿嘿

#13


http://www.memepool.com/ 
这个网站的文章怎么看,我是看别的论文下载的数据有这个网站的数据,但是我根本找不到它的文章入口,真是郁闷

#14


正则

#15


引用 12 楼 bejon 的回复:
我有核心(socket写的),但我不公开 
嘿嘿

.

#16


你JB的,有东西不公开,想死啊`

#17


顶一下!

#1


光感谢啊?先给你顶上面。

#2


呵呵,可以送积分么,我刚才想多加点积分的,无奈只能是100,希望大家帮忙!

#3


简单啊。
搜索<a href=....></a>标签啊。

#4


顶下~

#5


帮顶

#6


冒泡帮顶接分

if (strURL.StartsWith("http://") == false)
                strURL = "http://" + strURL;
----------------------------------------

Uri newUri = new Uri(strRef);
                            
                            if (newUri.Host.ToLower()。。。。。) 。。。。


#7


帮顶..........

#8


搜索标签就OK了

#9


关注一下

#10


看我的这个:
www.webscraping.com.cn

#11


如何使用C#2.0实现抓取网络资源的网络蜘蛛。使用这个程序,可以通过一个入口网址来扫描整个互联网的网址,并将这些扫描到的网址所指向的网络资源下载到本地。然后可以利用其他的分析工具对这些网络资源做进一步地分析,如提取关键词、分类索引等。也可以将这些网络资源作为数据源来实现象Google一样的搜索引擎。
http://www.aoner.com/asp/11.html

#12


我有核心(socket写的),但我不公开
嘿嘿

#13


http://www.memepool.com/ 
这个网站的文章怎么看,我是看别的论文下载的数据有这个网站的数据,但是我根本找不到它的文章入口,真是郁闷

#14


正则

#15


引用 12 楼 bejon 的回复:
我有核心(socket写的),但我不公开 
嘿嘿

.

#16


你JB的,有东西不公开,想死啊`

#17


顶一下!