文件名称:portia:https
文件大小:4.4MB
文件格式:ZIP
更新时间:2024-06-03 05:44:59
JavaScript
波蒂亚 Portia是一种工具,可让您直观地抓取网站,而无需任何编程知识。 使用Portia,您可以为网页添加注释,以标识要提取的数据,Portia将基于这些注释了解如何从相似页面抓取数据。 Portia项目的剖析 Portia中的一个项目通常由一个或多个蜘蛛组成。 蜘蛛 蜘蛛是特定网站的爬虫。 蜘蛛程序的配置分为三个部分: 初始化 爬行 萃取 初始化部分用于设置蜘蛛首次启动时的状态。 在这里,您可以定义起始URL和登录凭据。 抓取部分用于配置抓取工具遇到URL时的行为。 您可以选择如何跟踪链接以及是否尊重 。 您可以使用“覆盖阻止的链接”选项来可视化搜寻规则的效果。 这将突出显示将以绿色显示的链接,而不会以红色显示的链接。 提取部分列出了此蜘蛛的模板。 范本 搜寻器访问页面时,该页面将与每个模板匹配,并且具有更多注释的模板将优先于具有较少注释的模板。 如果页面与模板匹配,则将使用模