2024年全新基于Java爬取微博数据(完整版)

时间:2025-04-05 09:18:05
package com.ruoyi.web.controller.demo.controller; import cn.hutool.http.HttpResponse; import cn.hutool.http.HttpUtil; import com.alibaba.excel.EasyExcel; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONArray; import com.alibaba.fastjson.JSONObject; import java.io.BufferedInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.net.HttpURLConnection; import java.net.URL; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.ArrayList; import java.util.Date; import java.util.List; import java.util.Objects; public class DemoWeiBo { /** * 主函数入口,用于从微博抓取数据并存储到Excel中。 * * @param args 命令行参数(未使用) * @throws ParseException 当日期解析发生错误时抛出 */ public static void main(String[] args) throws ParseException { // 定义微博数据抓取的URL模板 String url = "/ajax/statuses/mymblog?uid=1686546714&feature=0&page=%s"; String unfoldurl = "/ajax/statuses/longtext?id=%s"; String cookie = "你的 Cookie"; // 初始化日期格式 SimpleDateFormat dateFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); //初始化导出Excel数据列表 List<ExcelData> excelDataList = new ArrayList<>(); // 循环抓取前2页数据 for (int i = 1; i <= 3; i++) { try { // 输出开始抓取的提示信息 System.out.println("开始获取第" + i + "页数据"); // 格式化URL并发送HTTP请求获取响应 String urlstr = String.format(url, i); HttpResponse response = HttpUtil.createGet(urlstr) .header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36") .header("Cookie",cookie) .execute(); // 解析响应体 String body = response.body(); //(body); JSONObject jsonObject = JSON.parseObject(body).getJSONObject("data"); JSONArray list = null; if (Objects.nonNull(jsonObject)) { // 处理数据列表 list = jsonObject.getJSONArray("list"); // 遍历并处理每条微博数据 for (Object o : list) { JSONObject data = (JSONObject) o; // 解析并处理微博的其他信息 Date created = new Date(data.getString("created_at")); System.out.println("created:"+dateFormat.format(created)); String regex = "<[^<>]*>"; String text = data.getString("text").replaceAll(regex, ""); String repost = data.getString("reposts_count"); String comment = data.getString("comments_count"); String like = data.getString("attitudes_count"); //获取微博正文图片信息 StringBuffer pic_url = new StringBuffer(); Long pic_num = data.getLong("pic_num"); if (pic_num > 0 ) { JSONArray pic_ids = data.getJSONArray("pic_ids"); JSONObject pic_infos = data.getJSONObject("pic_infos"); // 遍历 pic_ids 获取 pic_infos 子对象 key for (Object json : pic_ids) { String key = (String) json; JSONObject pic = pic_infos.getJSONObject(key); JSONObject largest = pic.getJSONObject("largest"); // 提取图片URL并处理 String imageUrl = largest.getString("url"); String filename = imageUrl.substring(imageUrl.lastIndexOf("/") + 1); // 下载图片 String savePath = "E:\\2024weibo\\" + filename; downloadPicture(imageUrl, savePath); pic_url = pic_url.append(savePath).append(","); } } //获取微博正文视频信息 String video_url = ""; JSONObject page_info = data.getJSONObject("page_info"); if (Objects.nonNull(page_info)) { JSONObject media_info = page_info.getJSONObject("media_info"); String mp4_hd_url = media_info.getString("mp4_hd_url"); String filename = mp4_hd_url.substring(mp4_hd_url.lastIndexOf("/") + 1, mp4_hd_url.indexOf("?")); // 下载视频 String savePath = "E:\\2024weibo\\" + filename; downloadPicture(mp4_hd_url, savePath); video_url = savePath; } //有一种情况,就是当页面文本内容过多的时候,微博默认不展示全部,而是出现 【...展示】 按钮,此时需要再请求一个 URL 获取展开后的文本内容 if (text.lastIndexOf("...展开") != -1) { //说明存在 展开 需要重新获取 text 内容 String mblogid = data.getString("mblogid"); // 格式化URL并发送HTTP请求获取响应 String unfoldurlstr = String.format(unfoldurl, mblogid); HttpResponse response2 = HttpUtil.createGet(unfoldurlstr) .header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36") .header("Cookie",cookie) .execute(); // {"ok": 1,"http_code": 200,"data": {}} String body2 = response2.body(); JSONObject jsonObject2 = JSONObject.parseObject(body2).getJSONObject("data"); String longTextContent = jsonObject2.getString("longTextContent"); System.out.println("longTextContent:"+longTextContent); //补全后的内容赋给 text text = longTextContent; } // 创建ExcelData对象并填充数据 ExcelData excelData = new ExcelData(); //发布时间 excelData.setDate(created); //点赞数 excelData.setLike(Long.parseLong(like)); //评论数 excelData.setComment(Long.parseLong(comment)); //转发数 excelData.setRepost(Long.parseLong(repost)); //原始内容 excelData.setContent(text); //图片地址 excelData.setImgUrl(pic_url.toString()); //视频地址 excelData.setVideoUrl(video_url); excelDataList.add(excelData); } } // 输出完成提示并关闭响应,休眠以避免频繁请求 System.out.println("第" + i + "页数据获取完毕"); response.close(); // 如果列表为空,终止循环 if (list == null || list.size() == 0) { break; } Thread.sleep(700); } catch (Exception e) { // 打印异常信息 e.printStackTrace(); } } // 输出开始写入Excel的提示 System.out.println("Excel写入数据开始"); // 写入Excel的函数调用 EasyExcel.write("E:/微博.xlsx", ExcelData.class) .sheet("Sheet1") .doWrite(excelDataList); System.out.println("Excel写入数据结束"); } /** * 下载图片到指定路径 * * @param imageUrl 图片的URL地址 * @param savePath 图片保存的本地路径 */ public static void downloadPicture(String imageUrl, String savePath){ BufferedInputStream in = null; FileOutputStream out = null; HttpURLConnection connection = null; try { // 创建URL对象并打开连接 URL url = new URL(imageUrl); connection = (HttpURLConnection) url.openConnection(); // 设置请求方法为GET connection.setRequestMethod("GET"); // 建立连接 connection.connect(); // 获取响应码并判断是否下载成功 int responseCode = connection.getResponseCode(); if (responseCode == HttpURLConnection.HTTP_OK) { // 创建输入流和输出流,用于读取和保存图片 in = new BufferedInputStream(connection.getInputStream()); out = new FileOutputStream(savePath); // 缓冲区,用于一次读取和写入一定量的数据 byte[] buffer = new byte[1024]; int bytesRead; // 循环读取直到没有数据 while ((bytesRead = in.read(buffer)) != -1) { out.write(buffer, 0, bytesRead); } System.out.println("图片/视频 下载成功,保存路径:" + savePath); } else { // 响应码不为HTTP_OK,下载失败 System.out.println("无法下载图片/视频,响应码:" + responseCode); } }catch (Exception e) { // 捕获异常并打印堆栈信息 e.printStackTrace(); }finally { // 无论成功或失败,最后都关闭流和连接 // 关闭输入流 if (in != null) { try { in.close(); } catch (IOException e) { // 将IO异常转为运行时异常抛出 throw new RuntimeException(e); } } // 关闭输出流 if (out != null) { try { out.close(); } catch (IOException e) { // 将IO异常转为运行时异常抛出 throw new RuntimeException(e); } } // 关闭连接 if (connection != null) { connection.disconnect(); } } } }