【文件属性】:
文件名称:WebCrawler:基本的Python网络搜寻器
文件大小:2KB
文件格式:ZIP
更新时间:2021-05-16 08:11:55
Python
网络爬虫
##一个基本的Python网络搜寻器。
主要功能/特点
crawl_web(种子)
给定种子页面,创建所有链接的索引,并在页面之间创建关系图
compute_ranks(图)
使用inlinks / outlinks计算给定网页的排名
lucky_search(索引,等级,关键字)
返回给定关键字的最高排名页面
查找(索引,关键字)
返回与给定关键字关联的所有url的列表
臭虫
get_page(页面)
到目前为止仅适用于3个特定的URL
更新后可以在任何URL上使用(使用Beautiful Soup解析HTML)
【文件预览】:
WebCrawler-master
----Crawler.py(5KB)
----README.md(621B)