knowledge-distillation:知识图的站点爬虫下载

【文件属性】：

文件名称：knowledge-distillation:知识图的站点爬虫

文件大小：65.44MB

文件格式：ZIP

更新时间：2024-05-28 11:02:22

Java

1. knowledge-distillation是什么？在很多垂直领域，都有搜索和与情分析的需求。虽然有很多开源的爬虫，搜索引擎，数据抽取，自然语言处理，文本挖掘的工具，但是没有一个完整的开源项目提供简单可用的系统。 knowledge-distillation的目标就是提供一个简单但是易于扩展的这样一个系统。不过目前knowledge-distillation只是提供了一个网站的定向抓取和抽取的工具。 2. 网站定向(SiteCrawler)抓取要实现上面的目标，第一步就是获取数据。和通用搜索引擎不同，我们的定向抓取是遵循一个有向无环图（也就是树）的抓取路径，这样的抓取效率更高效，可以跳过不关注的网页。而且可以自定义更新策略，比如列表页的刷新频率是一天，而内容页不需要刷新。另外一个特点就是抓取和抽取同时进行，为了节省空间，我们可以不存储原始网页，而只是存储抽取出来感兴趣的属性，

立即下载

秒客网

knowledge-distillation:知识图的站点爬虫

网友评论

相关文章