文件名称:knowledge-distillation:知识图的站点爬虫
文件大小:65.44MB
文件格式:ZIP
更新时间:2024-05-28 11:02:22
Java
1. knowledge-distillation是什么? 在很多垂直领域,都有搜索和与情分析的需求。虽然有很多开源的爬虫,搜索引擎,数据抽取,自然语言处理,文本挖掘的工具,但是没有一个完整的开源项目提供简单可用的系统。 knowledge-distillation的目标就是提供一个简单但是易于扩展的这样一个系统。不过目前knowledge-distillation只是提供了一个网站的定向抓取和抽取的工具。 2. 网站定向(SiteCrawler)抓取 要实现上面的目标,第一步就是获取数据。 和通用搜索引擎不同,我们的定向抓取是遵循一个有向无环图(也就是树)的抓取路径,这样的抓取效率更高效,可以跳过不关注的网页。而且可以自定义更新策略,比如列表页的刷新频率是一天,而内容页不需要刷新。 另外一个特点就是抓取和抽取同时进行,为了节省空间,我们可以不存储原始网页,而只是存储抽取出来感兴趣的属性,