1.项目搭建
2.导入相关依赖
<dependency><!--jsoup只能解析网页 tika能解析视频网站 -->
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
3.找到B站的官网链接
https://search.bilibili.com/all?keyword=%E5%81%87%E7%9A%84%E6%A0%A1%E8%8A%B1
4.编写代码
/**
* @description: 爬取网页
* @author TAO
* @date 2020/7/23 22:55
*/
public class HtmlParseUtil {
public static void main(String[] args) throws IOException {
//爬取的网页地址https://www.bilibili.com/
String url="https://search.bilibili.com/all?keyword=%E5%81%87%E7%9A%84%E6%A0%A1%E8%8A%B1";
Document document = Jsoup.parse(new URL(url), 30000);
Elements video_list = document.getElementsByClass("video-list");
Elements video_item = video_list.get(0).getElementsByClass("video-item");
for (Element el:video_item){
String videoUrl=el.getElementsByTag("a").eq(0).attr("href");
String title=el.getElementsByTag("a").eq(0).attr("title");
String time=el.getElementsByClass("time").eq(0).text();
System.out.println("-------------------");
System.out.println(videoUrl.substring(2));
System.out.println(title);
System.out.println(time);
}
System.out.println(video_item.get(0));
}
}
这里对照标签来取值
//解析网页Jsoup返回Document就是浏览器的Document对象
//所有在js中能使用的方法,这里都能使用
建议使用谷歌浏览器,比较简洁
5.运行结果
6.数据对比
简单的JAVA实现爬虫就搞定了!!!