文件名称:discuz-crawler:一个易配置,可扩展的discuz论坛系统的爬虫
文件大小:10KB
文件格式:ZIP
更新时间:2024-03-31 11:24:40
系统开源
Discuz-Crawler 简介 一个易配置,可扩展的discuz论坛系统的爬虫 解析器,数据持久化,调度分离,方便扩展 配置goquery(类似jQuery)选择器来获取网页内容 配置请求头 关键词过滤 使用cookies爬取 并发爬取 失败重试 使用 编译好的二进制文件和配置文件config.yaml和放在同一个目录下 配置config.yaml 种子 url配置爬取的初始(种子)页面 parser配置初始(种子)页面对应的解析器选项论坛, section或article ,分别对应主页,板块页,文章页。方便对所有板块,单个板块或单个文章进行爬取 选择器配置选择器,语法几乎与jQuery的一致,方便适配不同的discuz的主题,用于定位爬取HTML页面上相对应的DOM元素。文章定位TD标签,其他页面为一个标签。 部分定位主页的“板块” a标签 sub_section定位主页的“子
【文件预览】:
discuz-crawler-master
----go.mod(186B)
----main.go(433B)
----fetcher()
--------fetcher.go(2KB)
----model()
--------item.go(190B)
--------request.go(240B)
----config.yaml(780B)
----config()
--------fetcher.go(728B)
----parser()
--------forum.go(1KB)
--------utils.go(936B)
--------article.go(554B)
--------section.go(2KB)
----README.md(1KB)
----engine()
--------simple.go(1KB)
--------concurrent.go(1KB)
----.gitignore(369B)
----persist()
--------persist.go(118B)
--------file.go(726B)