ache:ACHE是用于特定于域的搜索的Web搜寻器下载

【文件属性】：

文件名称：ache:ACHE是用于特定于域的搜索的Web搜寻器

文件大小：15.64MB

文件格式：ZIP

更新时间：2024-05-26 15:22:10

web-crawler web-scraping web-spider focused-crawler domain-specific-search

ACHE重点履带 ACHE是专注于Web的爬虫。它收集满足某些特定条件的网页，例如，属于给定域或包含用户指定模式的页面。 ACHE与通用搜寻器的不同之处在于，它使用页面分类器来区分给定域中的相关页面和不相关页面。页面分类器可以从简单的正则表达式（例如，匹配包含特定单词的每个页面）到基于机器学习的分类模型。 ACHE还可以自动学习如何确定链接的优先级，以便有效地定位相关内容，同时避免检索无关内容。 ACHE支持许多功能，例如：定期抓取网站的固定列表通过自动链接优先级发现和搜寻新的相关网站配置不同类型的页面分类器（机器学习，正则表达式等）不断重新搜寻站点地图以发现新页面使用Elasticsearch索引已爬网页面 Web界面，用于实时搜索已爬网的页面 REST API和基于Web的用户界面，用于爬网程序监视使用TOR代理搜寻隐藏服务执照从版本0.11.0开始，ACHE

立即下载

秒客网

ache:ACHE是用于特定于域的搜索的Web搜寻器

网友评论

相关文章