ache:ACHE是用于特定于域的搜索的Web搜寻器

时间:2024-05-26 15:22:10
【文件属性】:

文件名称:ache:ACHE是用于特定于域的搜索的Web搜寻器

文件大小:15.64MB

文件格式:ZIP

更新时间:2024-05-26 15:22:10

web-crawler web-scraping web-spider focused-crawler domain-specific-search

ACHE重点履带 ACHE是专注于Web的爬虫。 它收集满足某些特定条件的网页,例如,属于给定域或包含用户指定模式的页面。 ACHE与通用搜寻器的不同之处在于,它使用页面分类器来区分给定域中的相关页面和不相关页面。 页面分类器可以从简单的正则表达式(例如,匹配包含特定单词的每个页面)到基于机器学习的分类模型。 ACHE还可以自动学习如何确定链接的优先级,以便有效地定位相关内容,同时避免检索无关内容。 ACHE支持许多功能,例如: 定期抓取网站的固定列表 通过自动链接优先级发现和搜寻新的相关网站 配置不同类型的页面分类器(机器学习,正则表达式等) 不断重新搜寻站点地图以发现新页面 使用Elasticsearch索引已爬网页面 Web界面,用于实时搜索已爬网的页面 REST API和基于Web的用户界面,用于爬网程序监视 使用TOR代理搜寻隐藏服务 执照 从版本0.11.0开始,ACHE


网友评论