Golang爬虫及正则表达式的实现示例

字符

. ——匹配任意字符 e.g: abc. 结果: abcd,abcx,abc9;
[] ——匹配括号中任意一个字符 e.g: [abc]d 结果：ad,cd,1d；
- ——[-]中表示范围 e.g: [A-Za-z0-9]；
^ ——[^]中表示除括号中的任意字符 e.g：[^xy]a 结果：aa,da,不能为xa,ya；

数量限定

？ ——前面单元匹配0或1次；
+ ——前面单元匹配1或多次；
* ——前面单元匹配0或多次；
{,} ——显示个数上下线；e.g ： ip地址——[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}；

其他

\ ——转义字符;
| ——条件或;
() ——组成单元如果字符串本身有括号"[(] aaa. [)]" ;

方法

				?

									//参数正则字符串，返回值*Regexp

									str := regexp.MustCompile(string) 

									//参数要查找的数据，查找次数-1为全局，返回值二维数组，查找出的字符串+正则字符串

									var result [][]string = str.FindAllStringSubmatch(data, -1)

爬虫

爬取博客园所有文章阅读量，评论，推荐；

				?

									package main

									import (

									 "fmt"

									 "io"

									 "net/http"

									 "regexp"

									 "strconv"

									)

									var readCount int = 0

									var commentCount int = 0

									var diggCount int = 0

									//http读取网页数据写入result返回

									func HttpGet(url string) (result string, err error) {

									 resp, err1 := http.Get(url)

									 if err1 != nil {

									  err = err1

									  return

									 }

									 defer resp.Body.Close()

									 buf := make([]byte, 4096)

									 for {

									  n, err2 := resp.Body.Read(buf)

									  //fmt.Println(url)

									  if n == 0 {

									   break

									  }

									  if err2 != nil && err2 != io.EOF {

									   err = err2

									   return

									  }

									  result += string(buf[:n])

									 }

									 return result, err

									}

									//横向纵向爬取文章标题数据，并累计数值

									func SpiderPageDB(index int, page chan int) {

									 url := "https://www.cnblogs.com/littleperilla/default.html?page=" + strconv.Itoa(index)

									 result, err := HttpGet(url)

									 if err != nil {

									  fmt.Println("HttpGet err:", err)

									  return

									 }

									 str := regexp.MustCompile("post-view-count\">阅读[(](?s:(.*?))[)]</span>")

									 alls := str.FindAllStringSubmatch(result, -1)

									 for _, j := range alls {

									  temp, err := strconv.Atoi(j[1])

									  if err != nil {

									   fmt.Println("string2int err:", err)

									  }

									  readCount += temp

									 }

									 str = regexp.MustCompile("post-comment-count\">评论[(](?s:(.*?))[)]</span>")

									 alls = str.FindAllStringSubmatch(result, -1)

									 for _, j := range alls {

									  temp, err := strconv.Atoi(j[1])

									  if err != nil {

									   fmt.Println("string2int err:", err)

									  }

									  commentCount += temp

									 }

									 str = regexp.MustCompile("post-digg-count\">推荐[(](?s:(.*?))[)]</span>")

									 alls = str.FindAllStringSubmatch(result, -1)

									 for _, j := range alls {

									  temp, err := strconv.Atoi(j[1])

									  if err != nil {

									   fmt.Println("string2int err:", err)

									  }

									  diggCount += temp

									 }

									 page <- index

									}

									//主要工作方法

									func working(start, end int) {

									 fmt.Printf("正在从%d到%d爬取中...\n", start, end)

									 //channel通知主线程是否所有go都结束

									 page := make(chan int)

									 //多线程go程同时爬取

									 for i := start; i <= end; i++ {

									  go SpiderPageDB(i, page)

									 }

									 for i := start; i <= end; i++ {

									  fmt.Printf("拉取到%d页\n", <-page)

									 }

									}

									//入口函数

									func main() {

									 //输入爬取的起始页

									 var start, end int

									 fmt.Print("startPos:")

									 fmt.Scan(&start)

									 fmt.Print("endPos:")

									 fmt.Scan(&end)

									 working(start, end)

									 fmt.Println("阅读:", readCount)

									 fmt.Println("评论:", commentCount)

									 fmt.Println("推荐:", diggCount)

									}

Golang爬虫及正则表达式的实现示例

补充：正则表达式加golang爬虫爬取经典案例豆瓣top250

100

101

102

103

									package main

									import (

									    "fmt"

									    "io"

									    "net/http"

									    "os"

									    "regexp"

									    "strconv"

									)

									func savToFile(index int, filmName, filmScore [][]string) {

									    f, err := os.Create("第" + strconv.Itoa(index) + "页.txt")

									    if err != nil {

									        fmt.Println("os create err", err)

									        return

									    }

									    defer f.Close()

									    // 查出有多少条

									    n := len(filmName)

									    // 先写抬头 名称     评分

									    f.WriteString("电影名称" + "\t\t\t" + "评分" + "\n")

									    for i := 0; i < n; i++ {

									        f.WriteString(filmName[i][1] + "\t\t\t" + filmScore[i][1] + "\n")

									    }

									}

									func main() {

									    var start, end int

									    fmt.Print("请输入要爬取的起始页")

									    fmt.Scan(&start)

									    fmt.Print("请输入要爬取的终止页")

									    fmt.Scan(&end)

									    working(start, end)

									}

									func working(start int, end int) {

									    fmt.Printf("正在爬取%d到%d页", start, end)

									    for i := start; i <= end; i++ {

									        SpiderPage(i)

									    }

									}

									// 爬取一个豆瓣页面数据信息保存到文档

									func SpiderPage(index int) {

									    // 获取url

									    url := "https://movie.douban.com/top250?start=" + strconv.Itoa((index-1)*25) + "&filter="

									    // 爬取url对应页面

									    result, err := HttpGet(url)

									    if err != nil {

									        fmt.Println("httpget err", err)

									        return

									    }

									    //fmt.Println("result=", result)

									    // 解析，编译正则表达式  ---电影名称

									    ret := regexp.MustCompile(`<img width="100" id="codetool">

到此这篇关于Golang爬虫及正则表达式的实现示例的文章就介绍到这了,更多相关Golang爬虫及正则表达式内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家！

原文链接：https://www.cnblogs.com/littleperilla/p/15721635.html

golang

爬虫

正则表达式

延伸 · 阅读

2022-01-25详解Golang函数式选项(Functional Options)模式
2022-01-25Golang如何读取单行超长的文本详解
2022-01-25golang强制类型转换和类型断言
2022-01-25golang参数校验Validator
2022-01-25Python爬虫入门案例之回车桌面壁纸网美女图片采
2022-01-25Python爬虫实战之虎牙视频爬取附源码

精彩推荐

Golang

详解golang避免循环import问题(“import cycle not allowed”)

这篇文章主要给大家介绍了关于golang中不允许循环import问题("import cycle not allowed")的相关资料，文中通过示例代码介绍的非常详细，需要的朋友可以参考借鉴...

PHP点点通9532020-05-18
Golang

GO语言基本类型分析

这篇文章主要介绍了GO语言基本类型,较为详细的分析了整形、浮点型、字符串、指针等类型的具体用法,是深入学习GO语言所必须掌握的重要基础,需要的朋友...

shichen20144842020-04-12
Golang

Golang实现超时退出的三种方式

这篇文章主要介绍了Golang三种方式实现超时退出，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下 ...

JackieZheng2802020-06-08
Golang

Golang try catch与错误处理的实现

社区不少人在谈论 golang 为毛不用try/catch模式，而采用苛刻的recovery、panic、defer组合，本文就来详细的介绍一下，感兴趣的可以了解一下...

七八月份的太阳11362021-08-12
Golang

golang利用unsafe操作未导出变量-Pointer使用详解

这篇文章主要给大家介绍了关于golang利用unsafe操作未导出变量-Pointer使用的相关资料，文中通过示例代码介绍的非常详细，需要的朋友可以参考借鉴，下面...

豆瓣奶茶3152020-05-17
Golang

Go实现短url项目的方法示例

这篇文章主要介绍了Go实现短url项目的方法示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧 ...

python修行路6222020-05-14
Golang

go语言通过反射获取和设置结构体字段值的方法

这篇文章主要介绍了go语言通过反射获取和设置结构体字段值的方法,实例分析了Go语言反射的使用技巧,需要的朋友可以参考下 ...

脚本之家6472020-04-22
Golang

golang 打印error的堆栈信息操作

这篇文章主要介绍了golang 打印error的堆栈信息操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

fwhezfwhez6512021-06-14