Java可以像Python一样方便爬去世间万物

前言：

之前在大二的时候，接触到了Python语言，主要是接触Python爬虫那一块
比如我们常用的requests，re，beautifulsoup库等等
当时为了清理数据和效率，还专门学了正则表达式，异常的佩服自己哈哈哈哈哈
最近闲着无事干，秉承是Java是世界上最好的语言，Python能干，为啥Java不行
说刚就刚，以下以两个小例子还说明Java做爬虫一样可以像Python哪样方便

技术：

SpringBoot
HttpClient
Jsoup
HttpClientUtil
等

贴吧一键签到：

我们要知道，不管是你访问一个页面，还是登录注册
本质就是发送Http请求
Http请求大致有四种
- Get
- Post
- Delete
- Put
我们常用的也就是两种Get请求获取页面资源
Post请求发送数据
所以我们的思路如下：
- 向某个URL发送GET请求，获取HTML页面
- 用正则或者第三方工具清理数据
- 获得数据以后在进行后续操作
- 比如在GET请求
- 或者直接存到数据库中怎么样的

　　1. 获取HTML页面：

 public void execute(String username) {

         // 获取cookie

         String cookie = getCookie(username);

         // 获取首页html内容

         String content = http.get("http://tieba.baidu.com/mo/", cookie);

         // 获取所有连接

         String links = getMore(content);

         links = "http://tieba.baidu.com" + links;

         // 获取所有贴吧html内容

         content = http.get(links, cookie);

         List<String> likesLink = getLike(content);

         sign(likesLink, cookie, username);

     }

　　我们用第三方工具包 HttpClientUtil 可以直接发送Get请求(已经封装好的)

　 2.清理数据：

 private void sign(List<String> likesLink, String cookie, String username) {

         for (String link : likesLink) {

             String content = http.get(link, cookie);

             Document doc = Jsoup.parse(content);

             Elements titles = doc.getElementsByClass("bc");

             String title = titles.get(0).text();

             title = title.split("吧")[0];

             Elements links = doc.select("a[href]");

             boolean flag = true;

             for (Element ele : links) {

                 String ss = ele.attr("href");

                 ss = "http://tieba.baidu.com" + ss;

                 if (ss.contains("sign")) {

                     http.get(ss, cookie);

                     // 插入到数据库中

                     String date = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS").format(new Date());

                     dao.insertRecord(username, title, date, "签到成功");

                     flag = false;

                     break;

                 }

             }

             if (flag) {

                 // 插入到数据库中

                 String date = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS").format(new Date());

                 dao.insertRecord(username, title, date, "已签到");

             }

         }

     }

　　我们这里用的第三方工具 Jsoup， Jsoup可以像DOM一样简单的获取任何东西。甚至你可以用这个则来进行获取。

　　项目源码：贴吧一键签到

　　项目地址：贴吧一键签到

爬取天涯房价的帖子：

　　1. 获取HTML地址：

 public List<String> getContent() {

         List<String> res = new ArrayList<>();

         // 92是固定的，帖子的总数

         for (int i = 1; i <= 92; i++) {

             String url = getUrl(i);

             String content = http.get(url);

             getParse(content, res);

         }

         return res;

     }

　　2.清理数据：

 private void getParse(String content, List<String> res) {

         Document doc = Jsoup.parse(content);

         Elements links = doc.getElementsByClass("bd");

         for (Element link : links) {

             String str = link.toString();

             Pattern pattern = Pattern.compile("<p>[.\\s\\S]+?div");

             Matcher m = pattern.matcher(str);

             while (m.find()) {

                 String s = m.group();

                 s = s.replaceAll("<", "");

                 s = s.replaceAll(">", "");

                 s = s.replaceAll("/", "");

                 s = s.replaceAll("p", "");

                 s = s.replaceAll("div", "");

                 s = s.replaceAll("\n", "");

                 res.add(s);

             }

         }

     }