JAVA实现爬虫

时间:2022-12-11 16:58:48


1.项目搭建

JAVA实现爬虫


JAVA实现爬虫

JAVA实现爬虫

2.导入相关依赖

<dependency><!--jsoup只能解析网页    tika能解析视频网站  -->
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>

3.找到B站的官网链接

https://search.bilibili.com/all?keyword=%E5%81%87%E7%9A%84%E6%A0%A1%E8%8A%B1

4.编写代码

/**
* @description: 爬取网页
* @author TAO
* @date 2020/7/23 22:55
*/
public class HtmlParseUtil {
public static void main(String[] args) throws IOException {
//爬取的网页地址https://www.bilibili.com/

String url="https://search.bilibili.com/all?keyword=%E5%81%87%E7%9A%84%E6%A0%A1%E8%8A%B1";


Document document = Jsoup.parse(new URL(url), 30000);
Elements video_list = document.getElementsByClass("video-list");
Elements video_item = video_list.get(0).getElementsByClass("video-item");

for (Element el:video_item){
String videoUrl=el.getElementsByTag("a").eq(0).attr("href");
String title=el.getElementsByTag("a").eq(0).attr("title");
String time=el.getElementsByClass("time").eq(0).text();
System.out.println("-------------------");
System.out.println(videoUrl.substring(2));
System.out.println(title);
System.out.println(time);
}
System.out.println(video_item.get(0));

}
}

这里对照标签来取值

//解析网页Jsoup返回Document就是浏览器的Document对象
//所有在js中能使用的方法,这里都能使用

建议使用谷歌浏览器,比较简洁

JAVA实现爬虫

5.运行结果

JAVA实现爬虫


6.数据对比

JAVA实现爬虫


简单的JAVA实现爬虫就搞定了!!!