文件名称:WebCrawler:基本的Python网络搜寻器
文件大小:2KB
文件格式:ZIP
更新时间:2024-06-05 01:58:35
Python
网络爬虫 ##一个基本的Python网络搜寻器。 主要功能/特点 crawl_web(种子) 给定种子页面,创建所有链接的索引,并在页面之间创建关系图 compute_ranks(图) 使用inlinks / outlinks计算给定网页的排名 lucky_search(索引,等级,关键字) 返回给定关键字的最高排名页面 查找(索引,关键字) 返回与给定关键字关联的所有url的列表 臭虫 get_page(页面) 到目前为止仅适用于3个特定的URL 更新后可以在任何URL上使用(使用Beautiful Soup解析HTML)
【文件预览】:
WebCrawler-master
----Crawler.py(5KB)
----README.md(621B)